改进Python中仅基于特定列的重复数据消除列表的运行时

A = [ (Jack, Smith, New York, USA, 100), (Jim, Doe, Cleveland, UK, 200), (Frank, Johnson, Chicago, USA, 300) ] B = [ (Jack, Smith, New York, United States, blank), (Jerry, Smith, Cleveland, USA, blank), (Frank, Johnson, Chicago, America, blank) ] Matched List = [ (Jack, Smith, New York, USA, 100) (Frank, Johnson, Chicago, USA, 300) ] Desired List = [ (Jim, Doe, Cleveland, UK, 200) ]

for Acquisition_row in Acquisition_list[:]: for Leads_row in Leads_list: if (Acquisition_row[0] == Leads_row[0]) and (Acquisition_row[7] == Leads_row[7]) and (Acquisition_row[9] == Leads_row[9]) and (Acquisition_row[10] == Leads_row[10]): try: Acquisition_list.remove(Acquisition_row) Leads_list.append(Acquisition_row) except: print("Error!")

1条回答

网友

1楼 · 发布于 2024-04-18 16:45:10

@kindall建议set()或dict记录您迄今所看到的内容是正确的。你知道吗

def getKey(row):
    return (row[0], row[7], row[9], row[10])

# create a set of all the keys you care about
lead_keys = {getKey(r) for r in Leads_rows}

# save this off due to reverse indexing gyration
len_ac_list = len(Acquisition_list)

for i, ac_row in enumerate(Acquisition_list[::-1]):
    ac_key = getKey(ac_row)
    if ac_key in lead_keys:   ## this look up is O(1)
        index = len_ac_list - i - 1
        Acquisition_list.pop(index)
        Leads_list.append(ac_row)
        ## maybe: lead_keys.add(ac_key)

这样做的好处是：在创建密钥集时，您只需迭代一次Leads\u list（我为此选择Leads\u list，因为它是一个较大的列表，因此将节省您更多的时间）；并且查找Acquisition\u list需要固定的时间，O（1）而不是O（n），其中n是len（Leads\u list）。你知道吗

在最初的设置中，最坏的情况是，（n*m）或（300000*4000000）操作，这是。。。一吨。使用sets，您将只执行（n+m）或（30000+4000000），这是…少了很多。少了30万倍。这就是1.2万亿和0.000004万亿（400万）之间的差别。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章