在python中查找大量列表的交集

网友

1楼 · 编辑于 2024-04-26 20:44:31

我认为您可以通过创建一个倒排索引来优化这一点，也就是说，一个mappingnumber=>；包含这个数字的行的列表。例如，如果10出现在第5、100、200行，则

10: [5, 100, 200]

要进一步优化，可以将行列表存储为一组对：

^{pr2}$

然后，要计算list_a+list_b的交集，只需找到其相关联的rowlist包含(list_a, list_b)的所有数字。在

网友

2楼 · 编辑于 2024-04-26 20:44:31

第一个想法是先建立所有的集合一次，如果它们都能放入内存，然后将它们相交。在

如果你真的需要30万线和30万线的所有交叉口，无论如何都需要时间。也许你应该重新考虑你的问题。在

网友

3楼 · 编辑于 2024-04-26 20:44:31

您应该在这里使用生成器表达式，它们执行延迟求值并节省大量内存：

In [46]: from itertools import imap

In [47]: a = [[1,2,3], [2,3,4], [3,4,5]]

In [48]: reduce(set.intersection,imap(set,a))
Out[48]: set([3])

考虑到您的文件如下所示：

^{pr2}$

代码：使用itertools.combinations()：

with open("abc.txt") as f:
    lines=(map(int,x.split()) for x in f)
    for x in combinations(lines,2):
        print x,' >',reduce(set.intersection,imap(set,x))
   ....:         
([1, 2, 3], [2, 3, 4])  > set([2, 3])
([1, 2, 3], [3, 4, 5])  > set([3])
([2, 3, 4], [3, 4, 5])  > set([3, 4])

相关问题更多 >

编程相关推荐

热门问题

热门文章

在python中查找大量列表的交集

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >