fullerhua

32
获赞数
7
关注数
192
粉丝数
深圳
西安电子科技大学 | 电子设备结构设计
IP 属地未知
2016-05-09 加入
浏览 7.7k

网络爬虫GooSeeker.com创始人,数据挖掘和数据获取社区运营

323 声望|学徒
全站排名超越 95% 用户
python
296
编程语言
189
网页爬虫
157
网络爬虫
130
编程
99
1 黄金勋章
白银勋章
暂未获得该勋章
如何获得
个人动态
  • 发布了文章2017-07-12
    深圳市咨询投诉分析
    自2008年5月1日《中华人民共和国政府信息公开条例》开始施行以来,人民群众对于政府相关工作的知情权、参与权、表达权、监督权都有了更好的保障。同时随着新媒体时代的到来,从中央到地方各区域政府也纷纷开始加强网站管理,打造新媒体传播平台。使人民群众与政府之...
  • 发布了文章2016-10-28
    在Python3.5下安装和测试Scrapy爬网站
    Scrapy框架结构清晰,基于twisted的异步架构可以充分利用计算机资源,是爬虫做大的必备基础。本文将讲解如何快速安装此框架并使用起来。
  • 发布了文章2016-10-25
    快速制作规则及获取规则提取器API
    前面文章的测试案例都用到了集搜客Gooseeker提供的规则提取器,在网页抓取工作中,调试正则表达式或者XPath都是特别繁琐的,耗时耗力,工作枯燥,如果有一个工具可以快速生成规则,而且可以可视化的即时验证,就能把程序员解放出来,投入到创造性工作中。
  • 发布了文章2016-10-25
    为采集动态网页安装和测试Python Selenium库
    上一篇《为编写网络爬虫程序安装Python3.5》中测试小例子对静态网页做了一个简单的采集程序,而动态网页因为需要动态加载js获取数据,所以使用urllib直接openurl已经不能满足采集的需求了。这里我们使用selenium库,通过它我们可以很简单的使用浏览器来为我们加载动...
  • 发布了文章2016-09-28
    为编写网络爬虫程序安装Python3.5
    2.1 双击打开安装包,选择自定义路径(注意安装路径中尽量不要含有有中文或者空格),然后选中Add Python 3.5 to PATH(将Python安装路径添加到系统变量Path中,这样做以后在任意目录下都可以执行pyhton命令了)
  • 发布了文章2016-08-05
    Python即时网络爬虫项目: 内容提取器的定义(Python2.7版本)
    在Python即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间太多了(见上图),从而我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到更高端的数据处理工作中。
  • 发布了文章2016-07-15
    Python爬虫实战(4):豆瓣小组话题数据采集—动态网页
    Python开源网络爬虫项目启动之初,我们就把网络爬虫分成两类:即时爬虫和收割式网络爬虫。为了适应各种应用场景,GooSeeker的整个网络爬虫产品线包含了四类产品,如下图所示:
  • 发布了文章2016-07-11
    Python爬虫实战(3):安居客房产经纪人信息采集
    Python开源网络爬虫项目启动之初,我们就把网络爬虫分成两类:即时爬虫和收割式网络爬虫。为了使用各种应用场景,该项目的整个网络爬虫产品线包含了四类产品,如下图所示:本实战是上图中的“独立python爬虫”的一个实例,以采集安居客房产经纪人([链接] )信息为例,记...
  • 发布了文章2016-07-07
    Python信息采集器使用轻量级关系型数据库SQLite
    Python自带一个轻量级的关系型数据库SQLite。这一数据库使用SQL语言。SQLite作为后端数据库,可以搭配Python建网站,或者为python网络爬虫存储数据。SQLite还在其它领域有广泛的应用,比如HTML5和移动端。
  • 发布了文章2016-07-04
    Python网页信息采集:使用PhantomJS采集淘宝天猫商品内容
    最近一直在看Scrapy 爬虫框架,并尝试使用Scrapy框架写一个可以实现网页信息采集的简单的小程序。尝试过程中遇到了很多小问题,希望大家多多指教。
  • 发布了文章2016-06-30
    让Scrapy的Spider更通用
    《Scrapy的架构初探》一文所讲的Spider是整个架构中最定制化的一个部件,Spider负责把网页内容提取出来,而不同数据采集目标的内容结构不一样,几乎需要为每一类网页都做定制。我们有个设想:是否能做一个比较通用的Spider,把定制部分再进一步隔离出去?
  • 发布了文章2016-06-28
    API例子:用Python驱动Firefox采集网页数据
    本文讲解怎样用Python驱动Firefox浏览器写一个简易的网页数据采集器。开源Python即时网络爬虫项目将与Scrapy(基于twisted的异步网络框架)集成,所以本例将使用Scrapy采集淘宝这种含有大量ajax代码的网页数据,但是要注意本例一个严重缺陷:用Selenium加载网页的过...
  • 发布了文章2016-06-24
    API例子:用Java/JavaScript下载内容提取器
    本文讲解怎样用Java和JavaScript使用 GooSeeker API 接口下载内容提取器,这是一个示例程序。什么是内容提取器?为什么用这种方式?源自Python即时网络爬虫开源项目:通过生成内容提取器,大幅节省程序员时间。具体请参看《内容提取器的定义》。
  • 发布了文章2016-06-22
    Python即时网络爬虫:API说明
    如果您想编写一个网络爬虫程序,您会发现大部分时间耗费在调测网页内容提取规则上,不讲正则表达式的语法如何怪异,即便使用XPath,您也得逐个编写和调试。
  • 发布了文章2016-06-17
    Python: xml转json
    GooSeeker早在9年前就开始了Semantic Web领域的产品化,MS谋数台和DS打数机是其中两个产品。对web内容做结构化转换和语义处理的主要路线是 XML -> RDF -> Ontology Engineering。所以这两款产品的输出信息是XML格式的,实现第一步:结构化转换。单纯作为一个网...
  • 发布了文章2016-06-15
    Scrapy:python3下的第一次运行测试
    1,引言 《Scrapy的架构初探》一文讲解了Scrapy的架构,本文就实际来安装运行一下Scrapy爬虫。本文以官网的tutorial作为例子,完整的代码可以在github上下载。 2,运行环境配置 本次测试的环境是:Windows10, Python3.4.3 32bit 安装Scrapy : $ pip install Scrapy...
  • 发布了文章2016-06-13
    Scrapy入门程序点评
    在《Scrapy的架构初探》一文,我基于爬虫开发的经验对Scrapy官网文章作了点评和解读,事件驱动的异步处理架构、极强的模块化等是个绝好的框架,接着我细读了官网的《Scrapy at a glance》,更加强了我的感受:就是他了——开源Python网络爬虫项目需要一个爬虫框架,我...
  • 发布了文章2016-06-11
    Scrapy的架构初探
    本文简单讲解一下Scrapy的架构。没错,GooSeeker开源的通用提取器gsExtractor就是要集成到Scrapy架构中,最看重的是Scrapy的事件驱动的可扩展的架构。除了Scrapy,这一批研究对象还包括ScrapingHub,Import.io等,把先进的思路、技术引进来。
  • 发布了文章2016-06-08
    Python爬虫实战(2):爬取京东商品列表
    在上一篇《python爬虫实战:爬取Drupal论坛帖子列表》,爬取了一个用Drupal做的论坛,是静态页面,抓取比较容易,即使直接解析html源文件都可以抓取到需要的内容。相反,JavaScript实现的动态网页内容,无法从html源代码抓取需要的内容,必须先执行JavaScript。
  • 回答了问题2016-06-07
    sf中有人用过scrapinghub的爬虫服务吗?
    可以关注我的专栏:[链接]我们正在做一个开源的Python爬虫,已经初具形态了,也希望大家能参与