注册登录
产品
社群
使用“Bing”搜本站
使用“Google”搜本站
使用“百度”搜本站
✓
站内搜索
注册登录
问答
博客
资讯
标签
用户
活动
极客观点
项目管理
HarmonyOS
开发者社区
热门标签
javascript
前端
python
node.js
react
vue.js
php
laravel
go
人工智能
mysql
linux
ios
java
android
css
typescript
spring
程序员
ONES 研发管理
思否企业问答
问答
博客
资讯
标签
用户
活动
极客观点
项目管理
HarmonyOS
开发者社区
热门标签
javascript
前端
python
node.js
react
vue.js
php
laravel
go
人工智能
mysql
linux
ios
java
android
css
typescript
spring
程序员
ONES 研发管理
思否企业问答
fullerhua
32
获赞数
7
关注数
192
粉丝数
关注他
发私信
深圳
西安电子科技大学 | 电子设备结构设计
www.gooseeker.com
IP 属地未知
2016-05-09 加入
浏览 7.7k
举报
屏蔽
主页
回答
2
提问
文章
27
更多
网络爬虫GooSeeker.com创始人,数据挖掘和数据获取社区运营
323 声望
|
学徒
全站排名超越 95% 用户
python
296
编程语言
189
网页爬虫
157
网络爬虫
130
编程
99
1
黄金勋章
归零进一
白银勋章
暂未获得该勋章
如何获得
2
青铜勋章
见多识广
自传作者
个人动态
发布了文章
2017-07-12
深圳市咨询投诉分析
fullerhua
自2008年5月1日《中华人民共和国政府信息公开条例》开始施行以来,人民群众对于政府相关工作的知情权、参与权、表达权、监督权都有了更好的保障。同时随着新媒体时代的到来,从中央到地方各区域政府也纷纷开始加强网站管理,打造新媒体传播平台。使人民群众与政府之...
发布了文章
2016-10-28
在Python3.5下安装和测试Scrapy爬网站
fullerhua
Scrapy框架结构清晰,基于twisted的异步架构可以充分利用计算机资源,是爬虫做大的必备基础。本文将讲解如何快速安装此框架并使用起来。
发布了文章
2016-10-25
快速制作规则及获取规则提取器API
fullerhua
前面文章的测试案例都用到了集搜客Gooseeker提供的规则提取器,在网页抓取工作中,调试正则表达式或者XPath都是特别繁琐的,耗时耗力,工作枯燥,如果有一个工具可以快速生成规则,而且可以可视化的即时验证,就能把程序员解放出来,投入到创造性工作中。
发布了文章
2016-10-25
为采集动态网页安装和测试Python Selenium库
fullerhua
上一篇《为编写网络爬虫程序安装Python3.5》中测试小例子对静态网页做了一个简单的采集程序,而动态网页因为需要动态加载js获取数据,所以使用urllib直接openurl已经不能满足采集的需求了。这里我们使用selenium库,通过它我们可以很简单的使用浏览器来为我们加载动...
发布了文章
2016-09-28
为编写网络爬虫程序安装Python3.5
fullerhua
2.1 双击打开安装包,选择自定义路径(注意安装路径中尽量不要含有有中文或者空格),然后选中Add Python 3.5 to PATH(将Python安装路径添加到系统变量Path中,这样做以后在任意目录下都可以执行pyhton命令了)
发布了文章
2016-08-05
Python即时网络爬虫项目: 内容提取器的定义(Python2.7版本)
fullerhua
在Python即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间太多了(见上图),从而我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到更高端的数据处理工作中。
发布了文章
2016-07-15
Python爬虫实战(4):豆瓣小组话题数据采集—动态网页
fullerhua
Python开源网络爬虫项目启动之初,我们就把网络爬虫分成两类:即时爬虫和收割式网络爬虫。为了适应各种应用场景,GooSeeker的整个网络爬虫产品线包含了四类产品,如下图所示:
发布了文章
2016-07-11
Python爬虫实战(3):安居客房产经纪人信息采集
fullerhua
Python开源网络爬虫项目启动之初,我们就把网络爬虫分成两类:即时爬虫和收割式网络爬虫。为了使用各种应用场景,该项目的整个网络爬虫产品线包含了四类产品,如下图所示:本实战是上图中的“独立python爬虫”的一个实例,以采集安居客房产经纪人([链接] )信息为例,记...
发布了文章
2016-07-07
Python信息采集器使用轻量级关系型数据库SQLite
fullerhua
Python自带一个轻量级的关系型数据库SQLite。这一数据库使用SQL语言。SQLite作为后端数据库,可以搭配Python建网站,或者为python网络爬虫存储数据。SQLite还在其它领域有广泛的应用,比如HTML5和移动端。
发布了文章
2016-07-04
Python网页信息采集:使用PhantomJS采集淘宝天猫商品内容
fullerhua
最近一直在看Scrapy 爬虫框架,并尝试使用Scrapy框架写一个可以实现网页信息采集的简单的小程序。尝试过程中遇到了很多小问题,希望大家多多指教。
发布了文章
2016-06-30
让Scrapy的Spider更通用
fullerhua
《Scrapy的架构初探》一文所讲的Spider是整个架构中最定制化的一个部件,Spider负责把网页内容提取出来,而不同数据采集目标的内容结构不一样,几乎需要为每一类网页都做定制。我们有个设想:是否能做一个比较通用的Spider,把定制部分再进一步隔离出去?
发布了文章
2016-06-28
API例子:用Python驱动Firefox采集网页数据
fullerhua
本文讲解怎样用Python驱动Firefox浏览器写一个简易的网页数据采集器。开源Python即时网络爬虫项目将与Scrapy(基于twisted的异步网络框架)集成,所以本例将使用Scrapy采集淘宝这种含有大量ajax代码的网页数据,但是要注意本例一个严重缺陷:用Selenium加载网页的过...
发布了文章
2016-06-24
API例子:用Java/JavaScript下载内容提取器
fullerhua
本文讲解怎样用Java和JavaScript使用 GooSeeker API 接口下载内容提取器,这是一个示例程序。什么是内容提取器?为什么用这种方式?源自Python即时网络爬虫开源项目:通过生成内容提取器,大幅节省程序员时间。具体请参看《内容提取器的定义》。
发布了文章
2016-06-22
Python即时网络爬虫:API说明
fullerhua
如果您想编写一个网络爬虫程序,您会发现大部分时间耗费在调测网页内容提取规则上,不讲正则表达式的语法如何怪异,即便使用XPath,您也得逐个编写和调试。
发布了文章
2016-06-17
Python: xml转json
fullerhua
GooSeeker早在9年前就开始了Semantic Web领域的产品化,MS谋数台和DS打数机是其中两个产品。对web内容做结构化转换和语义处理的主要路线是 XML -> RDF -> Ontology Engineering。所以这两款产品的输出信息是XML格式的,实现第一步:结构化转换。单纯作为一个网...
发布了文章
2016-06-15
Scrapy:python3下的第一次运行测试
fullerhua
1,引言 《Scrapy的架构初探》一文讲解了Scrapy的架构,本文就实际来安装运行一下Scrapy爬虫。本文以官网的tutorial作为例子,完整的代码可以在github上下载。 2,运行环境配置 本次测试的环境是:Windows10, Python3.4.3 32bit 安装Scrapy : $ pip install Scrapy...
发布了文章
2016-06-13
Scrapy入门程序点评
fullerhua
在《Scrapy的架构初探》一文,我基于爬虫开发的经验对Scrapy官网文章作了点评和解读,事件驱动的异步处理架构、极强的模块化等是个绝好的框架,接着我细读了官网的《Scrapy at a glance》,更加强了我的感受:就是他了——开源Python网络爬虫项目需要一个爬虫框架,我...
发布了文章
2016-06-11
Scrapy的架构初探
fullerhua
本文简单讲解一下Scrapy的架构。没错,GooSeeker开源的通用提取器gsExtractor就是要集成到Scrapy架构中,最看重的是Scrapy的事件驱动的可扩展的架构。除了Scrapy,这一批研究对象还包括ScrapingHub,Import.io等,把先进的思路、技术引进来。
发布了文章
2016-06-08
Python爬虫实战(2):爬取京东商品列表
fullerhua
在上一篇《python爬虫实战:爬取Drupal论坛帖子列表》,爬取了一个用Drupal做的论坛,是静态页面,抓取比较容易,即使直接解析html源文件都可以抓取到需要的内容。相反,JavaScript实现的动态网页内容,无法从html源代码抓取需要的内容,必须先执行JavaScript。
回答了问题
2016-06-07
sf中有人用过scrapinghub的爬虫服务吗?
fullerhua
可以关注我的专栏:[链接]我们正在做一个开源的Python爬虫,已经初具形态了,也希望大家能参与
标签得分
暂无数据
获得勋章
暂无数据
声望记录
暂无数据