我正在使用Bloomd及其可伸缩的BloomFilter为我们广泛的爬虫程序存储/检查数十亿个URL。它在前10-15亿个URL上运行得非常好,它已经使用了大约16GB的内存,但似乎很快就会有超过20亿个URL被添加到它中,我想知道Bloomd何时会尝试将过滤器扩展到32GB(我们会将服务器内存升级到64GB或更多)。你知道吗
“info”命令提供了一些数据,但我不确定哪个键代表什么,以及如何在扩展之前理解可以添加多少url。你知道吗
这是我的“info”命令结果
START
capacity 5461000000
checks 5893888032
check_hits 5400239954
check_misses 493648078
in_memory 1
page_ins 7
page_outs 6
probability 0.000100
sets 493648075
set_hits 493648016
set_misses 59
size 1859303638
storage 17205844037
END
另外,如果有人知道比使用可伸缩的Bloom过滤器更好的方法来处理这种大规模的URL集,我也会很感激。你知道吗
您的过滤器仅使用其容量的34%(大小/容量=1859303638/5461000000)。你知道吗
相关问题 更多 >
编程相关推荐