如何确定Bloomd何时缩放BloomFilter?

2024-05-16 09:33:40 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用Bloomd及其可伸缩的BloomFilter为我们广泛的爬虫程序存储/检查数十亿个URL。它在前10-15亿个URL上运行得非常好,它已经使用了大约16GB的内存,但似乎很快就会有超过20亿个URL被添加到它中,我想知道Bloomd何时会尝试将过滤器扩展到32GB(我们会将服务器内存升级到64GB或更多)。你知道吗

“info”命令提供了一些数据,但我不确定哪个键代表什么,以及如何在扩展之前理解可以添加多少url。你知道吗

这是我的“info”命令结果

START
capacity 5461000000
checks 5893888032
check_hits 5400239954
check_misses 493648078
in_memory 1
page_ins 7
page_outs 6
probability 0.000100
sets 493648075
set_hits 493648016
set_misses 59
size 1859303638
storage 17205844037
END

另外,如果有人知道比使用可伸缩的Bloom过滤器更好的方法来处理这种大规模的URL集,我也会很感激。你知道吗


Tags: 内存命令程序info服务器url过滤器check
1条回答
网友
1楼 · 发布于 2024-05-16 09:33:40

您的过滤器仅使用其容量的34%(大小/容量=1859303638/5461000000)。你知道吗

相关问题 更多 >