作为当下最火爆的社交媒体之一,短视频评论区堪称一座蕴含海量用户洞察的“数据金矿”。无论是品牌方想要精准把握消费者需求,还是创作者希望了解受众反馈,高质量的评论数据都能提供关键支撑。于是,我专门用python语言开发了一款专为评论采集设计的工具“爬dy搜索评论软件”,轻松解决数据获取难题。
一、工具适配与技术说明
1.1 适配环境
Windows系统用户可直接双击启动,无需安装Python运行环境,上手即用,极大降低操作门槛。
1.2 核心技术
工具基于Python语言开发,整合多个高效模块:
tkinter:构建简洁易用的GUI界面
requests:处理网络爬虫请求
json:解析接口响应数据
pandas:实现数据清洗与CSV文件保存
logging:记录运行日志,保障操作可追溯1.3 代码实现
界面部分:
# 创建主窗口
root = tk.Tk()
root.title('爬dy搜索评论软件v1.4')
# 设置窗口大小
root.minsize(width=900, height=650)爬虫请求部分:
# 发送请求
r = requests.get(url, headers=h1)
# 接收响应数据
json_data = r.json()数据保存部分:
# 保存数据到DF
df = pd.DataFrame(
{
'目标链接': 'https://www.douyin.com/video/' + str(video_id),
'页码': page,
'评论者昵称': user_name_list,
'评论者id': user_unique_id_list,
'评论者uid': uid_list,
'评论者主页链接': user_url_list,
'评论时间': create_time_list,
'评论IP属地': ip_list,
'评论点赞数': like_count_list,
'评论级别': cmt_level_list,
'评论内容': text_list,
}
)
# 保存到csv
df.to_csv(self.result_file2, mode='a+', header=header, index=False, encoding='utf_8_sig')日志记录部分:
def get_logger(self):
self.logger = logging.getLogger(__name__)
# 日志格式
formatter = '[%(asctime)s-%(filename)s][%(funcName)s-%(lineno)d]--%(message)s'
# 日志级别
self.logger.setLevel(logging.DEBUG)
# 控制台日志
sh = logging.StreamHandler()
log_formatter = logging.Formatter(formatter, datefmt='%Y-%m-%d %H:%M:%S')
# info日志文件名
info_file_name = time.strftime("%Y-%m-%d") + '.log'
# 将其保存到特定目录
case_dir = r'./logs/'
info_handler = TimedRotatingFileHandler(filename=case_dir + info_file_name,
when='MIDNIGHT',
interval=1,
backupCount=7,
encoding='utf-8')
self.logger.addHandler(sh)
sh.setFormatter(log_formatter)
self.logger.addHandler(info_handler)
info_handler.setFormatter(log_formatter)
return self.logger二、工具功能
2.1 双模式采集
这款工具支持两种核心采集模式,可根据实际需求灵活选择:
- 关键词采集模式:通过设定作品关键词,自动抓取相关视频链接,再深度提取评论内容,实现“关键词→作品→评论”的全链路采集。
- 作品链接采集模式:直接输入指定视频链接,精准采集目标作品下的所有评论,高效聚焦特定内容。
2.2 精准筛选
内置多重筛选功能,帮助用户快速锁定有效数据:
- 时间筛选:支持自定义起始时间和结束时间(格式为YYYY-MM-DD HH:MI:SS,时分秒可灵活选择是否填写),也可直接选择发布时间范围(不限/一天内/一周内/半年内)。
- 排序筛选:提供综合排序、最新发布、最多点赞三种排序方式,按需获取优质评论。
- 多维度精准定位:可同时设置多个作品关键词、评论关键词和IP属地,精准圈定目标数据范围。
2.3 稳定高效
技术优势:基于接口协议开发,相比模拟浏览器的RPA工具,稳定性更强,采集效率更高。实时保存:每爬取一页数据立即保存为CSV文件,避免因异常中断导致数据丢失,且每条数据采集间隔1-2秒,兼顾效率与合规性。日志追踪:爬取过程生成详细log文件,完整记录运行状态,方便后续回溯与问题排查。
三、工具界面与操作指引
3.1 界面概览
软件运行界面工具界面简洁清晰,主要分为参数设置区、筛选条件区和运行日志区。参数设置区可填写作品关键词、作品链接等核心信息;筛选条件区支持设置时间范围、排序方式、IP属地等;运行日志区实时展示采集进度和状态,直观掌握操作情况。
3.2 前置准备
使用前需完成两项基础设置:填写Cookie:在工具配套的cookie.txt文件中填入个人Cookie(内附详细获取教程,操作简单易懂),方便后续重复使用。
cookie获取方法注意事项:关键词采集和作品链接采集不可同时启用,需根据需求选择单一模式操作。
3.3 操作步骤
关键词采集:填写作品关键词、评论关键词、IP属地等筛选条件,设置时间范围和排序方式,点击“关键词采集”按钮即可启动。作品链接采集:输入单个或多个视频链接,配置评论筛选条件,点击“链接采集”按钮开始采集。退出程序:完成采集后,点击“退出程序”即可安全关闭工具。
四、采集结果展示
工具输出两种CSV格式数据文件,字段完整,方便后续分析使用:
4.1 作品数据
搜索.csv包含13个核心字段:关键词、页码、视频标题、视频链接、作者昵称、作者uid、作者链接、作者粉丝数、发布时间、点赞数、评论数、收藏数、转发数,全面呈现视频基础信息。
4.2 评论数据
评论.csv涵盖11个关键维度:目标链接、页码、评论者昵称、评论者id、评论者uid、评论者主页链接、评论时间、评论IP属地、评论点赞数、评论级别(一级/二级)、评论内容,完整保留评论核心信息。
五、演示视频
软件使用过程的完整演示:
mp.weixin.qq.com/s/pUcmYYmXPiZ6dSKVwrX8wQ
END、免责声明
本工具首发公众号"老男孩的平凡之路",仅用于合法的数据采集与分析用途,禁止用于任何违法违规活动。若因用户不当使用导致的法律责任,均由用户自行承担,与工具开发者无关。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。