使用索引快速递归获取目录中的所有文件

Question

尝试 #2：

大家似乎不太明白我想做什么。让我试着更清楚地说明一下：

1) 读取文件列表比逐个遍历文件夹要快得多。

2) 所以我们可以写一个函数，遍历一个文件夹，并把得到的文件列表写入一个文件。将来如果我们想获取这个文件夹里的所有文件，就可以直接读取这个文件，而不是再去遍历文件夹。我把这个文件叫做索引。

3) 显然，随着文件系统的变化，索引文件会变得不准确。为了应对这个问题，我们有一个单独的程序，它可以监控操作系统的变化，记录文件系统的变动。它把这些变化写入一个叫做监控日志的文件中。在我们读取某个文件夹的索引文件后，立刻用监控日志来更新索引，以反映当前文件夹的状态。

因为读取文件比遍历文件夹便宜得多，所以在第一次之后，所有的调用应该会快很多。

原始帖子：

我想要一个函数，可以递归地获取任何给定文件夹中的所有文件，并根据各种参数进行过滤。我希望它能快一点——比简单遍历文件夹快一个数量级。而且我希望用Python来实现。最好是跨平台，但Windows最重要。

这是我打算怎么做的：

我有一个叫做all_files的函数：

def all_files(dir_path, ...parms...):
    ...

第一次调用这个函数时，它会使用os.walk来构建一个所有文件的列表，并附带文件的信息，比如它们是否是隐藏文件、符号链接等。我会把这些数据写入一个叫“.index”的文件中。在后续调用all_files时，会检测到.index文件，我就会读取这个文件，而不是再去遍历文件夹。

这就留下了一个问题：随着文件的添加和删除，索引可能会变得不准确。为了解决这个问题，我会有一个第二个程序，它在启动时运行，检测整个文件系统的所有变化，并把它们写入一个叫“mod_log.txt”的文件。它通过Windows信号来检测变化，就像这里描述的方法一样这里。这个文件每行包含一个事件，每个事件包括受影响的路径、事件类型（创建、删除等）和时间戳。 .index文件也会有一个时间戳，表示它最后一次更新的时间。在all_files中读取.index文件后，我会查看mod_log.txt，找到在.index文件时间戳之后发生的事件。然后我会处理这些最近的事件，找出适用于当前文件夹的，并相应地更新.index。

最后，我会把所有文件的列表进行过滤，并返回结果。

你觉得我的方法怎么样？有没有更好的办法？

编辑：

看看这段代码。我发现从读取缓存列表中获得的速度提升非常明显，比递归遍历快多了。

import os
from os.path import join, exists
import cProfile, pstats

dir_name = "temp_dir"
index_path = ".index"

def create_test_files():
    os.mkdir(dir_name)
    index_file = open(index_path, 'w')
    for i in range(10):
        print "creating dir: ", i
        sub_dir = join(dir_name, str(i))
        os.mkdir(sub_dir)
        for i in range(100):
            file_path = join(sub_dir, str(i))
            open(file_path, 'w').close() 
            index_file.write(file_path + "\n")
    index_file.close()
#

#  0.238 seconds
def test_walk():            
    for info in os.walk("temp_dir"):
        pass

#  0.001 seconds
def test_read():
    open(index_path).readlines()

if not exists("temp_dir"):
    create_test_files()

def profile(s):
    cProfile.run(s, 'profile_results.txt')
    p = pstats.Stats('profile_results.txt')
    p.strip_dirs().sort_stats('cumulative').print_stats(10)

profile("test_walk()")
profile("test_read()")

性能优化文件系统跨平台递归索引文件遍历事件检测监控日志

使用索引快速递归获取目录中的所有文件

6 个回答

撰写回答