根据数据的特征是否相交对数据进行分组

id | aliases ------------- 0 | ['a0', 'a1', 'a4', 'a11'] 1 | ['a3', 'a5'] 2 | ['a16', 'a18'] 3 | ['a6', 'a8', 'a10'] 4 | ['a7', 'a8', 'a9'] 5 | ['a3', 'a12', 'a14'] 6 | ['a5', 'a16', 'a17']

1条回答

网友

1楼 · 发布于 2024-05-14 11:18:00

在这个表上运行一个O(n*len(groupcount)复杂代码应该不是那么难，只是我脑子里想不起来：

假设id作为id列表，aliases作为列表列表，您可以执行以下操作：

bins = []
sets = []
for i in id: # Assume from (0 - n)
    alias = aliases[i]
    in_set = False
    for j in range(len(sets)):
        if len(sets[j].intersection(set(alias))) > 0:
            sets[j].update(set(alias)) # add alias to set, if any difference
            in_set = True
            bins[j].append(i) # append id to bins
            break
    if not in_set:
        bins.append([i])
        sets.append(set(alias))

bins将包含id组，sets中的相应元素将包含alias组，您可以使用list()将这些集合转换回list。因为所有的set操作都是基于哈希的，所以这可以确保程序在O(n*groupcount)时间内运行

相关问题更多 >

编程相关推荐

热门问题

热门文章

根据数据的特征是否相交对数据进行分组

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >