如何提取dataframe列中的字符串部分

样本数据

data = {'type': ['Azure_Standard_E64is_v4_SPECIAL_DB-A.0', 'Azure_Standard_E64is_v4_SPECIAL_DB-A.0', 'Hello-HEL-HE-A6123-123A-12T_TYPE-v.A', 'Hello-HEL-HE-A6123-123A-12T_TYPE-v.E', 'Hello-HEL-HE-A6123-123A-50T_TYPE-v.C', 'Hello-HEL-HE-A6123-123A-50T_TYPE-v.A', 'Happy-HAP-HA-R650-570A-90T_version-v.A', 'Kind-KIN-KI-T490-NET_14T-A.0', 'Kind-KIN-KI-T490-NET_14T-A.0', 'AY14.5-fyy-FY-R770-256G-6.4T-R1-v.A', 'AY14.5-fyy-FY-R770-256G-6.4T-R1-v.A'], 'free': [6, 5, 10, 5, 1, 2, 10, 7, 6, 3, 0], 'use': [1, 1, 10, 1, 4, 1, 0, 4, 3, 0, 20], 'total': [7, 6, 20, 6, 5, 1, 10, 3, 2, 3, 20]} df = pd.DataFrame(data) type free use total 0 Azure_Standard_E64is_v4_SPECIAL_DB-A.0 6 1 7 1 Azure_Standard_E64is_v4_SPECIAL_DB-A.0 5 1 6 2 Hello-HEL-HE-A6123-123A-12T_TYPE-v.A 10 10 20 3 Hello-HEL-HE-A6123-123A-12T_TYPE-v.E 5 1 6 4 Hello-HEL-HE-A6123-123A-50T_TYPE-v.C 1 4 5 5 Hello-HEL-HE-A6123-123A-50T_TYPE-v.A 2 1 1 6 Happy-HAP-HA-R650-570A-90T_version-v.A 10 0 10 7 Kind-KIN-KI-T490-NET_14T-A.0 7 4 3 8 Kind-KIN-KI-T490-NET_14T-A.0 6 3 2 9 AY14.5-fyy-FY-R770-256G-6.4T-R1-v.A 3 0 3 10 AY14.5-fyy-FY-R770-256G-6.4T-R1-v.A 0 20 20

所需：

Name type free use total Azure_Standard_E64is_v4_SPECIAL_DB-A.0 Azure 6 1 7 Azure_Standard_E64is_v4_SPECIAL_DB-A.0 Azure 5 1 6 Hello-HEL-HE-A6123-123A-12T_TYPE-v.A Hello 12T 10 10 20 Hello-HEL-HE-A6123-123A-12T_TYPE-v.E Hello 12T 5 1 6 Hello-HEL-HE-A6123-123A-50T_TYPE-v.C Hello 50T 1 4 5 Hello-HEL-HE-A6123-123A-50T_TYPE-v.A Hello 50T 2 1 1 Happy-HAP-HA-R650-570A-90T_version-v.A Happy 90T 10 0 10 Kind-KIN-KI-T490-NET_14T-A.0 Kind 14T 7 4 3 Kind-KIN-KI-T490-NET_14T-A.0 Kind 14T 6 3 2 AY14.5-fyy-FY-R770-256G-6.4T-R1-v.A AY14.5 6.4T 3 0 3 AY14.5-fyy-FY-R770-256G-6.4T-R1-v.A AY14.5 6.4T 0 20 20

正在做：

df['type']= df['type'].str.extract(r'(^\w+.\d|^\w+)')+' '+df['type'].str.extract(r'(\d.\d+T|\d+T)')

这在下面起作用，但是，“AZURE”值会消失，并且原始值不会保持。我仍在研究这一点，任何援助是感激的

1条回答

网友
1楼 · 发布于 2024-06-15 15:34:42

您可以将^{}与^{}一起使用，最后添加^{}，也可以将expand=False添加到^{}中，用于Series
对于第二个位置的新列，使用^{}
s = (df['type'].str.replace('_','-') .str.extract(r'(^\w+.\d|^\w+)', expand=False) .str.cat(df['type'].str.extract(r'(\d.\d+T|\d+T)', expand=False), sep=' ', na_rep='') .str.strip())
感谢@Trenton McKinney提供另一种解决方案-拆分值并获取列表的第一个值：
s = (df['type'].str.split('_|-') .str[0] .str.cat(df['type'].str.extract(r'(\d.\d+T|\d+T)', expand=False), sep=' ', na_rep='') .str.strip()) df = df.rename(columns={'type': 'Name'}) df.insert(1, 'type', s) print (df) Name type free use total 0 Azure_Standard_E64is_v4_SPECIAL_DB-A.0 Azure 6 1 7 1 Azure_Standard_E64is_v4_SPECIAL_DB-A.0 Azure 5 1 6 2 Hello-HEL-HE-A6123-123A-12T_TYPE-v.A Hello 12T 10 10 20 3 Hello-HEL-HE-A6123-123A-12T_TYPE-v.E Hello 12T 5 1 6 4 Hello-HEL-HE-A6123-123A-50T_TYPE-v.C Hello 50T 1 4 5 5 Hello-HEL-HE-A6123-123A-50T_TYPE-v.A Hello 50T 2 1 1 6 Happy-HAP-HA-R650-570A-90T_version-v.A Happy 90T 10 0 10 7 Kind-KIN-KI-T490-NET_14T-A.0 Kind 14T 7 4 3 8 Kind-KIN-KI-T490-NET_14T-A.0 Kind 14T 6 3 2 9 AY14.5-fyy-FY-R770-256G-6.4T-R1-v.A AY14.5 6.4T 3 0 3 10 AY14.5-fyy-FY-R770-256G-6.4T-R1-v.A AY14.5 6.4T 0 20 20

样本数据

相关问题更多 >

编程相关推荐

热门问题

热门文章