为了提高效率，Pandas换成了循环

df = pd.DataFrame({'No': [123,234,345,456,567,678], 'text': ['60 ABC','1nHG','KL HG','21ABC','K 200','1g HG'], 'reference':['ABC','HG','FL','','200',''], 'result':['','','','','','']}, columns=['No', 'text', 'reference', 'result']) No text reference result 0 123 60 ABC ABC 1 234 1nHG HG 2 345 KL HG FL 3 456 21ABC 4 567 K 200 200 5 678 1g HG

for idx, row in df.iterrows(): for item in list: if row['text'].strip().endswith(item): if pd.isnull(row['reference']): df.at[idx, 'result'] = item elif pd.notnull(row['reference']) and row['reference'] != item: df.at[idx, 'result'] = 'wrong item' if pd.isnull(row['result']): break

No text reference result 0 123 60 ABC ABC 1 234 1nHG HG 2 345 KL HG FL wrong item 3 456 21ABC ABC 4 567 K 200 200 5 678 1g HG HG

1条回答

网友

1楼 · 发布于 2024-05-23 19:51:44

您可以迭代后缀，而不是迭代行，这可能是一个小得多的iterable。这样，就可以利用基于序列的方法和布尔索引。你知道吗

我还创建了一个额外的序列来标识行何时被更新。与按行迭代的开销相比，这个额外检查的开销应该很小。你知道吗

L = ['ABC', 'HG', 'FL', '200', 'CP1']

df['text'] = df['text'].str.strip()
null = df['reference'].eq('')
df['updated'] = False

for item in L:
    ends = df['text'].str.endswith(item)
    diff = df['reference'].ne(item)

    m1 = ends & null & ~df['updated']
    m2 = ends & diff & ~null & ~df['updated']

    df.loc[m1, 'result'] = item
    df.loc[m2, 'result'] = 'wrong item'

    df.loc[m1 | m2, 'updated'] = True

结果：

    No    text reference      result updated
0  123  60 ABC       ABC               False
1  234    1nHG        HG               False
2  345   KL HG        FL  wrong item    True
3  456   21ABC                   ABC    True
4  567   K 200       200               False
5  678   1g HG                    HG    True

您可以删除最后一列，但可能会发现它对其他用途有用。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章