【技术分享】用python开发的短视频评论区采集软件

作为当下最火爆的社交媒体之一，短视频评论区堪称一座蕴含海量用户洞察的“数据金矿”。无论是品牌方想要精准把握消费者需求，还是创作者希望了解受众反馈，高质量的评论数据都能提供关键支撑。于是，我专门用python语言开发了一款专为评论采集设计的工具“爬dy搜索评论软件”，轻松解决数据获取难题。

一、工具适配与技术说明

1.1 适配环境

Windows系统用户可直接双击启动，无需安装Python运行环境，上手即用，极大降低操作门槛。

1.2 核心技术

工具基于Python语言开发，整合多个高效模块：

tkinter：构建简洁易用的GUI界面
requests：处理网络爬虫请求
json：解析接口响应数据
pandas：实现数据清洗与CSV文件保存
logging：记录运行日志，保障操作可追溯

1.3 代码实现

界面部分：

# 创建主窗口
root = tk.Tk()
root.title('爬dy搜索评论软件v1.4')
# 设置窗口大小
root.minsize(width=900, height=650)

爬虫请求部分：

# 发送请求
r = requests.get(url, headers=h1)
# 接收响应数据
json_data = r.json()

数据保存部分：

# 保存数据到DF
df = pd.DataFrame(
    {
        '目标链接': 'https://www.douyin.com/video/' + str(video_id),
        '页码': page,
        '评论者昵称': user_name_list,
        '评论者id': user_unique_id_list,
        '评论者uid': uid_list,
        '评论者主页链接': user_url_list,
        '评论时间': create_time_list,
        '评论IP属地': ip_list,
        '评论点赞数': like_count_list,
        '评论级别': cmt_level_list,
        '评论内容': text_list,
    }
)
# 保存到csv
df.to_csv(self.result_file2, mode='a+', header=header, index=False, encoding='utf_8_sig')

日志记录部分:

def get_logger(self):
    self.logger = logging.getLogger(__name__)
    # 日志格式
    formatter = '[%(asctime)s-%(filename)s][%(funcName)s-%(lineno)d]--%(message)s'
    # 日志级别
    self.logger.setLevel(logging.DEBUG)
    # 控制台日志
    sh = logging.StreamHandler()
    log_formatter = logging.Formatter(formatter, datefmt='%Y-%m-%d %H:%M:%S')
    # info日志文件名
    info_file_name = time.strftime("%Y-%m-%d") + '.log'
    # 将其保存到特定目录
    case_dir = r'./logs/'
    info_handler = TimedRotatingFileHandler(filename=case_dir + info_file_name,
                                            when='MIDNIGHT',
                                            interval=1,
                                            backupCount=7,
                                            encoding='utf-8')
    self.logger.addHandler(sh)
    sh.setFormatter(log_formatter)
    self.logger.addHandler(info_handler)
    info_handler.setFormatter(log_formatter)
    return self.logger

二、工具功能

2.1 双模式采集

这款工具支持两种核心采集模式，可根据实际需求灵活选择：

关键词采集模式：通过设定作品关键词，自动抓取相关视频链接，再深度提取评论内容，实现“关键词→作品→评论”的全链路采集。
作品链接采集模式：直接输入指定视频链接，精准采集目标作品下的所有评论，高效聚焦特定内容。

2.2 精准筛选

内置多重筛选功能，帮助用户快速锁定有效数据：

时间筛选：支持自定义起始时间和结束时间（格式为YYYY-MM-DD HH:MI:SS，时分秒可灵活选择是否填写），也可直接选择发布时间范围（不限/一天内/一周内/半年内）。
排序筛选：提供综合排序、最新发布、最多点赞三种排序方式，按需获取优质评论。
多维度精准定位：可同时设置多个作品关键词、评论关键词和IP属地，精准圈定目标数据范围。

2.3 稳定高效

技术优势：基于接口协议开发，相比模拟浏览器的RPA工具，稳定性更强，采集效率更高。实时保存：每爬取一页数据立即保存为CSV文件，避免因异常中断导致数据丢失，且每条数据采集间隔1-2秒，兼顾效率与合规性。日志追踪：爬取过程生成详细log文件，完整记录运行状态，方便后续回溯与问题排查。

三、工具界面与操作指引

3.1 界面概览

软件运行界面工具界面简洁清晰，主要分为参数设置区、筛选条件区和运行日志区。参数设置区可填写作品关键词、作品链接等核心信息；筛选条件区支持设置时间范围、排序方式、IP属地等；运行日志区实时展示采集进度和状态，直观掌握操作情况。

3.2 前置准备

使用前需完成两项基础设置：填写Cookie：在工具配套的cookie.txt文件中填入个人Cookie（内附详细获取教程，操作简单易懂），方便后续重复使用。

cookie获取方法注意事项：关键词采集和作品链接采集不可同时启用，需根据需求选择单一模式操作。

3.3 操作步骤

关键词采集：填写作品关键词、评论关键词、IP属地等筛选条件，设置时间范围和排序方式，点击“关键词采集”按钮即可启动。作品链接采集：输入单个或多个视频链接，配置评论筛选条件，点击“链接采集”按钮开始采集。退出程序：完成采集后，点击“退出程序”即可安全关闭工具。

四、采集结果展示

工具输出两种CSV格式数据文件，字段完整，方便后续分析使用：

4.1 作品数据

搜索.csv包含13个核心字段：关键词、页码、视频标题、视频链接、作者昵称、作者uid、作者链接、作者粉丝数、发布时间、点赞数、评论数、收藏数、转发数，全面呈现视频基础信息。

4.2 评论数据

评论.csv涵盖11个关键维度：目标链接、页码、评论者昵称、评论者id、评论者uid、评论者主页链接、评论时间、评论IP属地、评论点赞数、评论级别（一级/二级）、评论内容，完整保留评论核心信息。

五、演示视频

软件使用过程的完整演示：

mp.weixin.qq.com/s/pUcmYYmXPiZ6dSKVwrX8wQ

END、免责声明

本工具首发公众号"老男孩的平凡之路"，仅用于合法的数据采集与分析用途，禁止用于任何违法违规活动。若因用户不当使用导致的法律责任，均由用户自行承担，与工具开发者无关。

【技术分享】用python开发的短视频评论区采集软件

一、工具适配与技术说明

1.1 适配环境

1.2 核心技术

1.3 代码实现

二、工具功能

2.1 双模式采集

2.2 精准筛选

2.3 稳定高效

三、工具界面与操作指引

3.1 界面概览

3.2 前置准备

3.3 操作步骤

四、采集结果展示

4.1 作品数据

4.2 评论数据

五、演示视频

END、免责声明

马哥天才3218

引用和评论

如何高效获取小红书达人？独立开发：蒲公英采集软件

维护了七年的抖音下载工具，AI帮我补齐了UI界面

【技术分享】python开发油管博主采集软件v2.0，批量收集youtube红人信息邮箱

2026电商数据采集行业报告：技术演进、市场格局与未来十年的结构性变革

瑞数四神验证分析与爬虫工程师面试应对策略

加密货币接口调用踩坑？一套可复用的稳定性优化方案

【技术分享】2026快手聚合采集软件，一键批量爬取搜索作品和评论