注册登录
产品
社群
使用“Bing”搜本站
使用“Google”搜本站
使用“百度”搜本站
✓
站内搜索
注册登录
问答
博客
资讯
标签
用户
活动
极客观点
项目管理
HarmonyOS
开发者社区
热门标签
javascript
前端
python
node.js
react
vue.js
php
laravel
go
人工智能
mysql
linux
ios
java
android
css
typescript
spring
程序员
ONES 研发管理
思否企业问答
问答
博客
资讯
标签
用户
活动
极客观点
项目管理
HarmonyOS
开发者社区
热门标签
javascript
前端
python
node.js
react
vue.js
php
laravel
go
人工智能
mysql
linux
ios
java
android
css
typescript
spring
程序员
ONES 研发管理
思否企业问答
shili1992
4
获赞数
1
关注数
0
粉丝数
关注他
发私信
IP 属地未知
2014-11-20 加入
浏览 3.4k
举报
屏蔽
主页
回答
1
提问
7
文章
更多
╭╮╱╭┳━━━┳╮╱╭╮
┃┃╱┃┃╭━╮┃┃╱┃┃
┃╰━╯┃┃┃┃┃╰━╯┃
╰━━╮┃┃┃┃┣━━╮┃
╱╱╱┃┃╰━╯┃╱╱┃┃
个人简介什么都没有
51 声望
|
新手
c++
21
ide
18
多线程
10
cmake
3
c
3
4
黄金勋章
经典问题
7
白银勋章
火爆问题
11
青铜勋章
自学成才
受欢迎问题
支持者
个人动态
赞了回答
2016-07-09
爬虫如何保存已经访问过的url
cuimuxi
md5的hash存储在数据量不是很大的时候,存在KV存储中还是比较靠谱的,索引量很大的话,估计不太够用,就得使用带空间压缩的一些特别算法,比如上面有人提到的bloom filter
赞了回答
2016-07-09
爬虫如何保存已经访问过的url
石超
4G内存可以开很大的BloomFilter了,每个URL只需要几个比特,URL长度无关。BloomFilter有一定错误率(比如千分之一、百分之一,取决于配置),会导致漏爬一些网页,但不会重复爬。
关注了问题
2016-07-09
爬虫如何保存已经访问过的url
关注了问题
2015-05-09
wiki 语法的文本转 markdown 格式,有什么好方法?
提出了问题
2015-05-09
cmake 目录包含 引入头文件 问题
提出了问题
2015-05-05
如何c++ 计算字符串表达式的值
关注了问题
2015-05-05
GDB调试时,需要查看链表、树、堆等数据结构里的值,特别是很长的链表
提出了问题
2015-04-10
父类中能否有成员是其子类 对象?
关注了问题
2015-04-09
用 NULL 或者符号 ! 判断 C 语言字符指针有什么区别?
关注了问题
2015-04-09
C++用类封装函数有什么好处么?
关注了问题
2015-04-07
为什么数据库要插入数据后再建B-Tree等结构的索引,而不是边插边建?
关注了问题
2015-04-07
大家看redis源码主要学习什么部分
标签得分
暂无数据
获得勋章
暂无数据
声望记录
暂无数据