注册登录
产品
社群
使用“Bing”搜本站
使用“Google”搜本站
使用“百度”搜本站
✓
站内搜索
注册登录
问答
博客
资讯
标签
用户
活动
极客观点
项目管理
HarmonyOS
开发者社区
热门标签
javascript
前端
python
node.js
react
vue.js
php
laravel
go
人工智能
mysql
linux
ios
java
android
css
typescript
spring
程序员
ONES 研发管理
思否企业问答
问答
博客
资讯
标签
用户
活动
极客观点
项目管理
HarmonyOS
开发者社区
热门标签
javascript
前端
python
node.js
react
vue.js
php
laravel
go
人工智能
mysql
linux
ios
java
android
css
typescript
spring
程序员
ONES 研发管理
思否企业问答
普郎特
7
获赞数
7
关注数
65
粉丝数
关注他
发私信
IP 属地美国马里兰州圣路易斯市
2025-07-31 加入
浏览 4.4k
举报
屏蔽
主页
回答
12
提问
2
文章
29
更多
只有写出来的东西别人能看明白和有收获,才能说明自己是学懂了
20 声望
|
新手
python
19
web-scraping
11
selenium
11
encode
2
decode
2
黄金勋章
暂未获得该勋章
如何获得
1
白银勋章
狂热博主
8
青铜勋章
受益者
新手上路
支持者
个人动态
发布了文章
3 月 11 日
爬虫框架 XPath 语法与接口监听用法对比笔记
普郎特
⚠️ 关键区别:Scrapy / feapder 用 /text() 节点提取文本,需要 .get() 或 .getall() 转为 Python 字符串Selenium / DrissionPage 直接用 .text 属性Playwright 用 .inner_text() 方法(异步场景需 await)
回答了问题
3 月 10 日
PyCharm 输出异常:为什么在输出,之前会有两行 'pcs'?
普郎特
看一下test.py这个文件的最顶部有没有import 其他的文件?如果有的话,需要进入到那个被import 的文件中看有没有print('pcs')这个代码,如果有的话这个就是问题所在
发布了文章
2 月 27 日
Scrapy 源码笔记:为什么 make_request_from_data 需要 for 循环?
普郎特
核心问题make_request_from_data 用的是 return,只返回单个对象,为何 next_requests 里还需要 for req in reqs 循环?
发布了文章
2 月 27 日
Redis 笔记:为什么从 Redis 取出的数据是字节而不是字符串?
普郎特
核心问题通过 lpush 把 URL 字符串放入 Redis,取出来时却是 bytes,需要手动 .decode('utf-8') 才能变回字符串。Redis 把字符串变成字节了吗?
发布了文章
2 月 26 日
scrapy-redis 中 RedisSpider 的正确使用方式--第三遍学习scrapy-redis的心得体会
普郎特
核心结论: 继承 RedisSpider 后,不能重写 start_requests(),要重写 make_requests_from_url()。
发布了文章
2 月 26 日
scrapy-redis 中 dupefilter 缺失问题解析
普郎特
核心结论: 不是没用 Redis Scheduler,而是 dont_filter=True 跳过了去重器,所以 Redis 里不会创建 dupefilter 这个 Key。
发布了文章
2 月 25 日
Redis 数据结构核心模型笔记
普郎特
Redis 数据结构核心模型笔记一、Redis 本质模型Redis 是 key–value 结构key:必须是字符串value:只能是以下 5 种类型之一 {代码...} 二、一个 key 只能对应一种数据类型Redis 不支持混合数据结构。 {代码...} 例如: {代码...} 不能出现: {代码...} 三、为什么不能...
发布了文章
2 月 25 日
Scrapy-Redis Scheduler 队列模式详解
普郎特
特点: 基于 Redis ZADD/ZPOPMIN,以 Request 的 priority 字段作为排序依据,priority 越大越先处理。
发布了文章
2 月 24 日
# Playwright 快速参考手册
普郎特
1. 创建 Playwright 对象方法1:上下文管理器(推荐) {代码...} 方法2:手动管理生命周期 {代码...} 2. 创建浏览器对象 {代码...} 3. 创建 Page 对象 {代码...} 4. 打开网页 {代码...} 5. 获取网页信息获取网页源代码 {代码...} 获取网页 URL {代码...} 获取网页标...
提出了问题
2 月 24 日
为什么我的账户突然出现大量疑似机器人的粉丝?
发布了文章
2 月 24 日
Scrapy meta 参数完全指南
普郎特
核心概念meta 是 Request 对象中的字典,用于在请求间传递数据和配置。它就像一个"信息包裹",跟随请求在整个爬虫流程中流动。常用 meta 键分类🌐 网络请求控制键类型说明示例proxystr指定代理服务器http://proxy.example.com:8080download_timeoutint/float下载超时...
发布了文章
2 月 23 日
Scrapy Pipeline:raise DropItem() vs return item 的区别
普郎特
在 Scrapy Pipeline 中,return item 不会丢弃数据,item 会继续传递给后续 Pipeline;只有 raise DropItem() 才能真正终止 item 的传递链路。
发布了文章
2 月 23 日
Scrapy 各组件 __init__ 触发机制深度解析
普郎特
本文从一段 Scrapy Pipeline 代码出发,系统梳理 Spider、Pipeline、Middleware、Item 四大组件的实例化机制,以及 __init__ 与 from_crawler 的关系。
回答了问题
2 月 22 日
为什么我的Python字典循环后不显示结果?
普郎特
根据你原来代码的意图,你是想创建一个空字典 responses, 然后使用name(通过input方法获得的字符串)作为这个字典中的键,并使用response(通过input方法获得的字符串)作为name键的值,在while 循环中让用户不断地输入并将结果添加到字典中你的代码print("\n--- Pol...
发布了文章
2 月 21 日
Scrapy Downloader Middleware 执行机制完全总结
普郎特
本笔记彻底讲清三个问题:process_request 返回 Response 会发生什么?process_request 返回 Request 会发生什么?在多个中间件情况下执行顺序如何变化?一、Downloader Middleware 正常执行流程假设中间件顺序:MiddlewareAMiddlewareBMiddlewareC正常流程(没有中...
发布了文章
1 月 3 日
Scrapy-Redis 分布式爬虫深度解析:去重机制与数据持久化最佳实践
普郎特
目录[TOC]一、核心问题:为什么要用 Redis 管理起始 URL?1.1 传统方式 vs Redis 方式传统 Scrapy 方式pythonclass MySpider(scrapy.Spider):
提出了问题
1 月 3 日
encode和encoding的区别是什么?
回答了问题
2025-12-30
不使用Anaconda直接pip安装库会有什么潜在问题?
普郎特
给你举个简单的例子你就明白了。在你默认的python环境中(假设python==3.13)你安装了matplotlib的库的版本是AAA。当你发现这个这个版本在做某些项目的时候可以使用,而另外一些项目的时候会和其他的库发生冲突。由于一个环境下只能安装matplotlib的库的一本版本,这...
发布了文章
2025-12-23
Scrapy 核心机制深度解析---难度偏高
普郎特
下面的例子中绑定的是 parse 回调函数,但在该回调函数中的 self.parse_product 和 self.parse_article 可以分别处理 response:
发布了文章
2025-12-07
Selenium WebDriverWait 原理总结
普郎特
WebDriverWait.until() 的本质python传入的是函数对象(函数地址),不是函数调用结果wait.until(函数对象) # ✅ 正确:传入函数本身wait.until(函数调用()) # ❌ 错误:传入函数返回值
标签得分
暂无数据
获得勋章
暂无数据
声望记录
暂无数据