作为当下最火爆的社交媒体之一,短视频评论区堪称一座蕴含海量用户洞察的“数据金矿”。无论是品牌方想要精准把握消费者需求,还是创作者希望了解受众反馈,高质量的评论数据都能提供关键支撑。于是,我专门用python语言开发了一款专为评论采集设计的工具“爬dy搜索评论软件”,轻松解决数据获取难题。

一、工具适配与技术说明

1.1 适配环境

Windows系统用户可直接双击启动,无需安装Python运行环境,上手即用,极大降低操作门槛。

1.2 核心技术

工具基于Python语言开发,整合多个高效模块:

tkinter:构建简洁易用的GUI界面
requests:处理网络爬虫请求
json:解析接口响应数据
pandas:实现数据清洗与CSV文件保存
logging:记录运行日志,保障操作可追溯

1.3 代码实现

界面部分:

# 创建主窗口
root = tk.Tk()
root.title('爬dy搜索评论软件v1.4')
# 设置窗口大小
root.minsize(width=900, height=650)

爬虫请求部分:

# 发送请求
r = requests.get(url, headers=h1)
# 接收响应数据
json_data = r.json()

数据保存部分:

# 保存数据到DF
df = pd.DataFrame(
    {
        '目标链接': 'https://www.douyin.com/video/' + str(video_id),
        '页码': page,
        '评论者昵称': user_name_list,
        '评论者id': user_unique_id_list,
        '评论者uid': uid_list,
        '评论者主页链接': user_url_list,
        '评论时间': create_time_list,
        '评论IP属地': ip_list,
        '评论点赞数': like_count_list,
        '评论级别': cmt_level_list,
        '评论内容': text_list,
    }
)
# 保存到csv
df.to_csv(self.result_file2, mode='a+', header=header, index=False, encoding='utf_8_sig')

日志记录部分:

def get_logger(self):
    self.logger = logging.getLogger(__name__)
    # 日志格式
    formatter = '[%(asctime)s-%(filename)s][%(funcName)s-%(lineno)d]--%(message)s'
    # 日志级别
    self.logger.setLevel(logging.DEBUG)
    # 控制台日志
    sh = logging.StreamHandler()
    log_formatter = logging.Formatter(formatter, datefmt='%Y-%m-%d %H:%M:%S')
    # info日志文件名
    info_file_name = time.strftime("%Y-%m-%d") + '.log'
    # 将其保存到特定目录
    case_dir = r'./logs/'
    info_handler = TimedRotatingFileHandler(filename=case_dir + info_file_name,
                                            when='MIDNIGHT',
                                            interval=1,
                                            backupCount=7,
                                            encoding='utf-8')
    self.logger.addHandler(sh)
    sh.setFormatter(log_formatter)
    self.logger.addHandler(info_handler)
    info_handler.setFormatter(log_formatter)
    return self.logger

二、工具功能

2.1 双模式采集

这款工具支持两种核心采集模式,可根据实际需求灵活选择:

  • 关键词采集模式:通过设定作品关键词,自动抓取相关视频链接,再深度提取评论内容,实现“关键词→作品→评论”的全链路采集。
  • 作品链接采集模式:直接输入指定视频链接,精准采集目标作品下的所有评论,高效聚焦特定内容。

2.2 精准筛选

内置多重筛选功能,帮助用户快速锁定有效数据:

  • 时间筛选:支持自定义起始时间和结束时间(格式为YYYY-MM-DD HH:MI:SS,时分秒可灵活选择是否填写),也可直接选择发布时间范围(不限/一天内/一周内/半年内)。
  • 排序筛选:提供综合排序、最新发布、最多点赞三种排序方式,按需获取优质评论。
  • 多维度精准定位:可同时设置多个作品关键词、评论关键词和IP属地,精准圈定目标数据范围。

2.3 稳定高效

技术优势:基于接口协议开发,相比模拟浏览器的RPA工具,稳定性更强,采集效率更高。实时保存:每爬取一页数据立即保存为CSV文件,避免因异常中断导致数据丢失,且每条数据采集间隔1-2秒,兼顾效率与合规性。日志追踪:爬取过程生成详细log文件,完整记录运行状态,方便后续回溯与问题排查。

三、工具界面与操作指引

3.1 界面概览

图片
软件运行界面工具界面简洁清晰,主要分为参数设置区、筛选条件区和运行日志区。参数设置区可填写作品关键词、作品链接等核心信息;筛选条件区支持设置时间范围、排序方式、IP属地等;运行日志区实时展示采集进度和状态,直观掌握操作情况。

3.2 前置准备

使用前需完成两项基础设置:填写Cookie:在工具配套的cookie.txt文件中填入个人Cookie(内附详细获取教程,操作简单易懂),方便后续重复使用。
图片
cookie获取方法注意事项:关键词采集和作品链接采集不可同时启用,需根据需求选择单一模式操作。

3.3 操作步骤

关键词采集:填写作品关键词、评论关键词、IP属地等筛选条件,设置时间范围和排序方式,点击“关键词采集”按钮即可启动。作品链接采集:输入单个或多个视频链接,配置评论筛选条件,点击“链接采集”按钮开始采集。退出程序:完成采集后,点击“退出程序”即可安全关闭工具。

四、采集结果展示

工具输出两种CSV格式数据文件,字段完整,方便后续分析使用:

4.1 作品数据

图片
搜索.csv包含13个核心字段:关键词、页码、视频标题、视频链接、作者昵称、作者uid、作者链接、作者粉丝数、发布时间、点赞数、评论数、收藏数、转发数,全面呈现视频基础信息。

4.2 评论数据

图片
评论.csv涵盖11个关键维度:目标链接、页码、评论者昵称、评论者id、评论者uid、评论者主页链接、评论时间、评论IP属地、评论点赞数、评论级别(一级/二级)、评论内容,完整保留评论核心信息。

五、演示视频

软件使用过程的完整演示:

mp.weixin.qq.com/s/pUcmYYmXPiZ6dSKVwrX8wQ

END、免责声明

本工具首发公众号"老男孩的平凡之路",仅用于合法的数据采集与分析用途,禁止用于任何违法违规活动。若因用户不当使用导致的法律责任,均由用户自行承担,与工具开发者无关。


马哥天才3218
3 声望1 粉丝

开发经验10年+,持续分享python干货!