普郎特

获赞数

关注数

粉丝数

IP 属地美国马里兰州圣路易斯市

2025-07-31 加入

浏览 4.4k

主页回答12 提问2 文章29

只有写出来的东西别人能看明白和有收获，才能说明自己是学懂了

20 声望|新手

python

web-scraping

selenium

encode

decode

黄金勋章

暂未获得该勋章

1 白银勋章

8 青铜勋章

个人动态

发布了文章3 月 11 日
爬虫框架 XPath 语法与接口监听用法对比笔记
 普郎特
⚠️ 关键区别：Scrapy / feapder 用 /text() 节点提取文本，需要 .get() 或 .getall() 转为 Python 字符串Selenium / DrissionPage 直接用 .text 属性Playwright 用 .inner_text() 方法（异步场景需 await）
回答了问题3 月 10 日
PyCharm 输出异常：为什么在输出，之前会有两行 'pcs'？
普郎特
看一下test.py这个文件的最顶部有没有import 其他的文件？如果有的话，需要进入到那个被import 的文件中看有没有print('pcs')这个代码，如果有的话这个就是问题所在
发布了文章2 月 27 日
Scrapy 源码笔记：为什么 make_request_from_data 需要 for 循环？
普郎特
核心问题make_request_from_data 用的是 return，只返回单个对象，为何 next_requests 里还需要 for req in reqs 循环？
发布了文章2 月 27 日
Redis 笔记：为什么从 Redis 取出的数据是字节而不是字符串？
普郎特
核心问题通过 lpush 把 URL 字符串放入 Redis，取出来时却是 bytes，需要手动 .decode('utf-8') 才能变回字符串。Redis 把字符串变成字节了吗？
发布了文章2 月 26 日
scrapy-redis 中 RedisSpider 的正确使用方式--第三遍学习scrapy-redis的心得体会
 普郎特
核心结论：继承 RedisSpider 后，不能重写 start_requests()，要重写 make_requests_from_url()。
发布了文章2 月 26 日
scrapy-redis 中 dupefilter 缺失问题解析
 普郎特
核心结论：不是没用 Redis Scheduler，而是 dont_filter=True 跳过了去重器，所以 Redis 里不会创建 dupefilter 这个 Key。
发布了文章2 月 25 日
Redis 数据结构核心模型笔记
 普郎特
Redis 数据结构核心模型笔记一、Redis 本质模型Redis 是 key–value 结构key：必须是字符串value：只能是以下 5 种类型之一 {代码...} 二、一个 key 只能对应一种数据类型Redis 不支持混合数据结构。 {代码...} 例如： {代码...} 不能出现： {代码...} 三、为什么不能...
发布了文章2 月 25 日
Scrapy-Redis Scheduler 队列模式详解
 普郎特
特点：基于 Redis ZADD/ZPOPMIN，以 Request 的 priority 字段作为排序依据，priority 越大越先处理。
发布了文章2 月 24 日
# Playwright 快速参考手册
 普郎特
1. 创建 Playwright 对象方法1：上下文管理器（推荐） {代码...} 方法2：手动管理生命周期 {代码...} 2. 创建浏览器对象 {代码...} 3. 创建 Page 对象 {代码...} 4. 打开网页 {代码...} 5. 获取网页信息获取网页源代码 {代码...} 获取网页 URL {代码...} 获取网页标...
提出了问题2 月 24 日
为什么我的账户突然出现大量疑似机器人的粉丝？
发布了文章2 月 24 日
Scrapy meta 参数完全指南
 普郎特
核心概念meta 是 Request 对象中的字典，用于在请求间传递数据和配置。它就像一个"信息包裹"，跟随请求在整个爬虫流程中流动。常用 meta 键分类🌐 网络请求控制键类型说明示例proxystr指定代理服务器http://proxy.example.com:8080download_timeoutint/float下载超时...
发布了文章2 月 23 日
Scrapy Pipeline：raise DropItem() vs return item 的区别
 普郎特
在 Scrapy Pipeline 中，return item 不会丢弃数据，item 会继续传递给后续 Pipeline；只有 raise DropItem() 才能真正终止 item 的传递链路。
发布了文章2 月 23 日
Scrapy 各组件 __init__ 触发机制深度解析
 普郎特
本文从一段 Scrapy Pipeline 代码出发，系统梳理 Spider、Pipeline、Middleware、Item 四大组件的实例化机制，以及 __init__ 与 from_crawler 的关系。
回答了问题2 月 22 日
为什么我的Python字典循环后不显示结果？
普郎特
根据你原来代码的意图，你是想创建一个空字典 responses, 然后使用name(通过input方法获得的字符串）作为这个字典中的键，并使用response（通过input方法获得的字符串）作为name键的值，在while 循环中让用户不断地输入并将结果添加到字典中你的代码print("\n--- Pol...
发布了文章2 月 21 日
Scrapy Downloader Middleware 执行机制完全总结
 普郎特
本笔记彻底讲清三个问题：process_request 返回 Response 会发生什么？process_request 返回 Request 会发生什么？在多个中间件情况下执行顺序如何变化？一、Downloader Middleware 正常执行流程假设中间件顺序：MiddlewareAMiddlewareBMiddlewareC正常流程（没有中...
发布了文章1 月 3 日
Scrapy-Redis 分布式爬虫深度解析：去重机制与数据持久化最佳实践
 普郎特
目录[TOC]一、核心问题：为什么要用 Redis 管理起始 URL？1.1 传统方式 vs Redis 方式传统 Scrapy 方式pythonclass MySpider(scrapy.Spider):
提出了问题1 月 3 日
encode和encoding的区别是什么?
回答了问题2025-12-30
不使用Anaconda直接pip安装库会有什么潜在问题？
普郎特
给你举个简单的例子你就明白了。在你默认的python环境中（假设python==3.13）你安装了matplotlib的库的版本是AAA。当你发现这个这个版本在做某些项目的时候可以使用，而另外一些项目的时候会和其他的库发生冲突。由于一个环境下只能安装matplotlib的库的一本版本，这...
发布了文章2025-12-23
Scrapy 核心机制深度解析---难度偏高
 普郎特
下面的例子中绑定的是 parse 回调函数，但在该回调函数中的 self.parse_product 和 self.parse_article 可以分别处理 response：
发布了文章2025-12-07
Selenium WebDriverWait 原理总结
 普郎特
WebDriverWait.until() 的本质python传入的是函数对象（函数地址），不是函数调用结果wait.until(函数对象) # ✅ 正确：传入函数本身wait.until(函数调用()) # ❌ 错误：传入函数返回值

加载更多