我有一个关于对具有相同内容但不同文件名的文件进行分组的问题。我查看了filecmp.cmp()
,但一次只比较两个文件。你知道吗
这样做的目的是:
file1: [a,b,c,d,e,f,g,h,i]
file2: [a,b,c,d,e,f,g,h,i]
file3: [a,b,c,d,e,f,g,h,i]
file4: [a,b,c,d,e,f,g,h]
file5: [a,b,c,d,e,f,g,h]
file6: [a,b,c,d,e]
分为:
file(1,2,3): [a,b,c,d,e,f,g,h,i]
file(4,5): [a,b,c,d,e,f,g,h]
file(6): [a,b,c,d,e]
我想我有大约1800个.txt文件,但只有大约20个独特的文件。我想创建一个列表,或者一个字典,或者一个显示分组的数据框。你知道吗
感谢您的帮助。谢谢!你知道吗
您可以使用类似SHA-1的散列函数来检查具有相同内容的文件,下面是source的摘录:
例如,上述函数在给定文件名时将返回其内容的哈希值。你知道吗
文件1.txt
文件2.txt
文件3.txt
输出:
现在回到原来的例子:
文件:
假设我们有以下文件,每个文件的内容如下:
代码:
输出:
这只是一个示例,您可以更改代码以满足您的需要(并获得所需的输出)。你知道吗
一个经典的方法是使用字典。首先列出目录中所有文件名的列表,并将其存储到名为file\u names的列表中。然后:
此词典的每个值都是具有相同文本内容的文件列表。字典的键将是文件的字符串。你知道吗
相关问题 更多 >
编程相关推荐