如题,最近想试试用 nodeJS 做个爬虫,用了 cheerio 却发现 cheerio 做不到解析出 DOM 的一些特征信息,如尺寸大小和 DOM 元素结点的位置什么的,记得 phantom 可以当浏览器进行渲染?是否可以做到在 node 环境下采集外部链接,如百度首页的文档结构,获取其中的 DOM 属性信息?
如题,最近想试试用 nodeJS 做个爬虫,用了 cheerio 却发现 cheerio 做不到解析出 DOM 的一些特征信息,如尺寸大小和 DOM 元素结点的位置什么的,记得 phantom 可以当浏览器进行渲染?是否可以做到在 node 环境下采集外部链接,如百度首页的文档结构,获取其中的 DOM 属性信息?
3 回答979 阅读✓ 已解决
1 回答862 阅读✓ 已解决
1 回答1.1k 阅读
2 回答481 阅读✓ 已解决
2 回答781 阅读
2 回答628 阅读
1 回答783 阅读
可以用phantomjs做dom处理,不过如果是批量爬虫的话要考虑服务器性能
具体用法见官网