有es6和ts的前后端开发经验,但是node的api不太了解,想写一个爬取一个网站包括图片视频等所有内容的程序,就相当于能够离线浏览目标域名下网站的所有内容。
知道能用fs写入文件,request,cheerio拿到html内容,puppeteer模拟用户使用浏览器,但是css,script这些不知道咋拿,而且a标签的链接也有问题(比如链接的是'/','/article'等等)。
请问该用些啥库,以及原理和步骤是啥呢?如果有文章这些,希望能指条明路。
有es6和ts的前后端开发经验,但是node的api不太了解,想写一个爬取一个网站包括图片视频等所有内容的程序,就相当于能够离线浏览目标域名下网站的所有内容。
知道能用fs写入文件,request,cheerio拿到html内容,puppeteer模拟用户使用浏览器,但是css,script这些不知道咋拿,而且a标签的链接也有问题(比如链接的是'/','/article'等等)。
请问该用些啥库,以及原理和步骤是啥呢?如果有文章这些,希望能指条明路。
3 回答957 阅读✓ 已解决
1 回答850 阅读✓ 已解决
1 回答1.1k 阅读
2 回答768 阅读
2 回答386 阅读✓ 已解决
2 回答612 阅读
1 回答773 阅读