如何使用正则表达式重命名Pandas数据帧的列？

网友

1楼 · 编辑于 2024-05-15 12:00:42

您可以像下面这样使用apply和re.sub()：

df = pd.DataFrame([['Jan.10','ABC','East[3]','Normal[1]','TBD[WIP]']], columns=['date','customer','region[level1]','priority[s2]','planning[WIP]'])

df.rename(columns=(lambda x : re.sub(r'(.*\[)|(\].*)', "", x)))

输出：

    date    customer    level1    s2            WIP
0   Jan.10  ABC         East[3]   Normal[1]   TBD[WIP]

网友

2楼 · 编辑于 2024-05-15 12:00:42

几点注意：

re.match仅在字符串开头搜索匹配项，使用re.search在字符串中的任何位置查找匹配项
[^[]*\[([^]]*)\]匹配除[之外的零个或多个字符，然后是[，除]之外的零个或多个字符，然后是]和it looks good，但这是一种应该与.str.replace一起使用的模式（见下文）
您会遇到'NoneType' object has no attribute 'groups'问题，因为某些标头与您的模式不匹配（请参阅上面的正则表达式演示）

你可以用

import pandas as pd
df = pd.DataFrame([['Jan.10','ABC','East[3]','Normal[1]','TBD[WIP]']], columns=['date','customer','region[level1]','priority[s2]','planning[WIP]'])
df.columns = df.columns.str.replace(r'.*\[([^][]*)].*', r'\1', regex=True)

>>> df
     date customer   level1         s2       WIP
0  Jan.10      ABC  East[3]  Normal[1]  TBD[WIP]

.*\[([^][]*)].*正则表达式匹配

.*-尽可能多的零个或多个字符（换行字符除外）
\[-a[字符
([^][]*)-第1组：除[和]之外的任何零个或多个字符
].*-]字符和行的其余部分

见regex demo

网友

3楼 · 编辑于 2024-05-15 12:00:42

你可以试试str.replace 找到的正则表达式的详细信息here

df = pd.DataFrame(['date','customer','region[level1]','priority[s2]','planning[WIP]'], columns=['col'])

df['col'].str.replace(r'(.*\[)|(\].*)', '', regex=True)

# 0        date
# 1    customer
# 2      level1
# 3          s2
# 4         WIP
# Name: col, dtype: object

更改列名的步骤

df = pd.DataFrame([[1,1,1,1,1]], columns=['date','customer','region[level1]','priority[s2]','planning[WIP]'])
df.columns = df.columns.str.replace(r'(.*\[)|(\].*)', '', regex=True)

#   date    customer    level1  s2  WIP
# 0 1   1   1   1   1

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何使用正则表达式重命名Pandas数据帧的列？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >