我们怎样才能在重复的名字后面加上数字，然后用pandas上传到主excel文件中呢？

master_location='C:/Users/Elite/Desktop/'+user+'/MeterMasterReport.xlsx' require_col=[1,6,10,12,15,17] master=pd.read_excel(master_location,header=3,usecols=require_col) df=pd.DataFrame(master) a=df.sort_values(by=['CIRCLE','DIVISION','SUBDIVISION','SECTION']) duplicate=a[a.duplicated('NAME')] for a in duplicate['NAME']: final_name=a+'1' print(final_name)

1条回答

网友

1楼 · 发布于 2024-04-26 03:17:01

由于您不想为不重复的名称添加后缀，因此可以按NAME对数据进行分组，并得到两个序列
1） suffix:名称的实例号（将作为后缀）
2） repeats:重复实例（标识符是否添加后缀）

使用repeats，您可以决定是否将suffix添加到名称中

import pandas as pd
import numpy as np
df=pd.DataFrame({'NAME':['A','A','B','C','D','D'],
                'DIVISION':['a','b','c','d','e','f'],
                'SUB_DIVISION':['m','n','o','p','q','r']
                })

name_groups = df.groupby('NAME')['NAME']
suffix = name_groups.cumcount()+1
repeats = name_groups.transform('size')

df['NEW_NAME'] = np.where(repeats > 1, df['NAME'] + suffix.map(str), df['NAME'])

NEW_NAME是NAME和suffix的字符串串联，其中repeats大于1

结果：

df : 

  NAME DIVISION SUB_DIVISION NEW_NAME
0    A        a            m       A1
1    A        b            n       A2
2    B        c            o        B
3    C        d            p        C
4    D        e            q       D1
5    D        f            r       D2

相关问题更多 >

编程相关推荐

热门问题

热门文章