擅长:python、mysql、java
<p>两条建议:</p>
<p><strong>首先,包含32个深嵌套子目录的结构本身就有缺陷。假设您真的有“大约1000万个文件”,那么一级子目录就足够了(假设您使用的是现代文件系统)。</p>
<p><strong>秒:你说你有“大约1000万个文件”,每个文件“包含一个整数字符串”。假设这些是32位整数,并且您直接存储它们而不是作为字符串存储,那么数据集的总大小为40MiB(10M个文件*每个文件4个字节)。假设每个文件名都是32字节长,那么再为这个数据添加一个320MiB的“keys”。</p>
<p>因此,您可以轻松地将整个数据集放入内存中。我建议这样做,并对保存在主存储器中的数据进行操作。除非有任何理由需要一个详细的目录结构,否则我进一步建议将数据存储在一个文件中。</p>