从路径列表中删除冗余项

import os def remove_redundant_entries(entries, directories): result = [] for entry in entries: # make a copy and successively get the dirname and test it partial_path = entry found = False while partial_path != os.sep: partial_path = os.path.dirname(partial_path) if partial_path in directories: found = True break if not found: result.append(entry) return result entries = [ "/home/fred/work/f1.txt", "/home/fred/work/f2.txt", "/home/fred/play/f3.txt", "/home/fred/play", "/home/jane/dev/f1.txt", "/home/jane"] directories = [ "/home/fred/play", "/home/jane"] print remove_redundant_entries(entries, directories) # result: ['/home/fred/work/f1.txt', '/home/fred/work/f2.txt', '/home/fred/play', '/home/jane']

1条回答

网友

1楼 · 发布于 2024-05-16 11:23:11

可以使用集合更有效地查找已存在的，如：

代码：

def remove_redundant_entries(entries):
    present = set()
    result = []
    for entry in sorted(entries):
        path = os.path.abspath(entry).split(os.sep)
        found = any(
            tuple(path[:i+1]) in present for i in range(len(path)))
        if not found:
            result.append(entry)
            present.add(tuple(path))
    return result

测试代码：

import os

entries = [
    "/home/fred/work/f1.txt",
    "/home/fred/work/f2.txt",
    "/home/fred/play/f3.txt",
    "/home/fred/play",
    "/home/jane/dev/f1.txt",
    "/home/jane"]

result = remove_redundant_entries(entries)
expected = ['/home/fred/work/f1.txt', '/home/fred/work/f2.txt',
            '/home/fred/play', '/home/jane']
assert set(result) == set(expected)

网友

2楼 · 发布于 2024-05-16 11:23:11

如果对输入的条目列表进行排序，那么问题就更简单了：

def remove_redundant_entries(entries):

    split_entries = sorted(entries)

    valid_entries = []

    for entry in split_entries:

        if any(entry.startswith(p) for p in valid_entries):
            continue
        valid_entries.append(entry)

    return valid_entries

注意anyshort-circuits一旦一个比较为真（除非严格必要，否则它不会再比较整个列表）。此外，由于列表是按顺序排列的，因此可以保证输出具有最少数量（和最高级别）的路径。你知道吗

编辑：

如果您还需要在列表中保留同一文件夹中的多个文件（即使某些文件名是其他文件名的子集），则只需修改排序条件：

split_entries = sorted(entries, key=lambda x: (x.count(os.sep), -len(x)))

这样，树中较高的文件夹会出现得更早（因此路径数最少），但在文件夹中，名称较长的文件会出现得更早，因此不会因为名称较短（类似前缀）的文件而被丢弃。你知道吗

代码：

测试代码：

相关问题更多 >

编程相关推荐

热门问题

热门文章