按上的相同键排序和分组

2条回答

网友

1楼 · 编辑于 2024-05-29 04:33:25

根据URL列表的大小，如果一次构建一个包含所有提取的满足项的列表，然后在索引列表上使用索引对排序和分组，则可以加快速度：

from itertools import groupby, count
from tldextract import extract

c1, c2 = count(), count()

lst = [extract(x).suffix for x in urls]
urls = sorted(urls, key=lambda _: lst[next(c1)])
grouped_urls = groupby(urls, key=lambda _: lst[next(c2)])

这样做的缺点是，您将为O(1)索引2n次，如果列表上extract(x)的总时间远远超过索引新列表所用的时间，那么速度将远远超过边际。你知道吗

网友

2楼 · 编辑于 2024-05-29 04:33:25

如果首先将后缀添加为元组，则可以按如下所示进行排序和分组，而无需重新计算：

from itertools import groupby
from tldextract import extract

urls = ["www.example.com", "www.mytest.org", "www.test.com", "www.abc.com"]
urls = [(extract(url).suffix, url) for url in urls]

for k, g in groupby(sorted(urls), key=lambda x: x[0]):
    print k, list(g)

在本例中，您将得到：

com [('com', 'www.abc.com'), ('com', 'www.example.com'), ('com', 'www.test.com')]
org [('org', 'www.mytest.org')]

相关问题更多 >

编程相关推荐

热门问题

热门文章

按上的相同键排序和分组

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >