为python数据帧内的重复项添加增量

import pandas as pd def gen_summary(color, car, blacklist): exists = True increment = 0 summary = color + car while exists: if summary in blacklist: increment += 1 summary = color + car + str(increment) # Append increment if in burn list else: exists = False # Exit this loop return summary def main(): blacklist = ['RedToyota', 'BlueVolkswagon', 'BlueVolkswagon1', 'BlueVolkswagon2'] df = pd.DataFrame( {'color': ['Red', 'Blue', 'Blue', 'Green'], 'car': ['Toyota', 'Volkswagon', 'Volkswagon', 'Hyundai'], 'summary': ['', '', '', '']} ) #print(df) df["summary"] = df.apply(lambda x: gen_summary(x['color'], x['car'], blacklist), axis=1) print(df) if __name__ == "__main__": main()

1条回答

网友

1楼 · 发布于 2024-05-14 18:57:59

我不完全确定您想要实现什么，但您可以在此过程中更新blacklistblacklist只是指向实际列表数据的指针。如果您通过在return语句之前添加blacklist.append(summary)来稍微修改gen_summary

def gen_summary(color, car, blacklist):
    ...
            exists = False  # Exit this loop
    blacklist.append(summary)
    return summary

您将得到以下结果

   color         car          summary
0    Red      Toyota       RedToyota1
1   Blue  Volkswagon  BlueVolkswagon3
2   Blue  Volkswagon  BlueVolkswagon4
3  Green     Hyundai     GreenHyundai

分组将更有效率。这将产生相同的结果：

def gen_summary(ser, blacklist):
    color_car = ser.iat[0]
    summary = color_car
    increment = 0
    exists = True
    while exists:
        if summary in blacklist:
            increment += 1
            summary = color_car + str(increment)  # Append increment if in burn list
        else:
            exists = False  # Exit this loop
    return ([color_car + ('' if increment == 0 else str(increment))]
            + [color_car + str(i + increment) for i in range(1, len(ser))])

df['summary'] = df['color'] + df['car']
df['summary'] = df.groupby(['color', 'car']).transform(gen_summary, blacklist)

这就是你想要的结果吗？如果是，我想添加一个优化方法的建议：使用字典而不是blacklist的列表：

def gen_summary(color, car, blacklist):
    key = color + car
    num = blacklist.get(key, -1) + 1
    blacklist[key] = num
    return key if num == 0 else f'{key}{num}'

blacklist = {'RedToyota': 0, 'BlueVolkswagon': 2}

还是分组

def gen_summary(ser, blacklist):
    key = ser.iat[0]
    num = blacklist.get(key, -1) + 1
    return ([f'{key}{"" if num == 0 else num}']
            + [f'{key}{i + num}' for i in range(1, len(ser))])

blacklist = {'RedToyota': 0, 'BlueVolkswagon': 2}
df['summary'] = df['color'] + df['car']
df['summary'] = df.groupby(['color', 'car']).transform(gen_summary, blacklist)

应该在不使用while循环和更快的查找的情况下生成相同的结果

相关问题更多 >

编程相关推荐

热门问题

热门文章