多种形式文本格式上的正则表达式文本清理

2条回答

网友

1楼 · 编辑于 2024-04-28 15:58:47

您可以使用此正则表达式提取：

>>> print (df)
                       name
0           JOSEPH W. JASON
1              Ralph Landau
2           RAYMOND C ADAMS
3                ABD, SAMIR
4  ABDOU TCHOUSNOU, BOUBACA
5          ABDL-ALI, OMAR R

>>> df['name'].str.extract(r'([^,]+(?=,)|\w+(?:-\w+)*(?=$))', expand=False)
0            JASON
1           Landau
2            ADAMS
3              ABD
4  ABDOU TCHOUSNOU
5         ABDL-ALI

正则表达式详细信息：

(：启动捕获组
- [^,]+(?=,)：匹配1+个非逗号字符
- |：或
- \w+：匹配1+个单词字符
- (?:-\w+)*：匹配-后跟1+个单词字符。匹配此组中的0个或多个
)：结束捕获组
(?=,|$)：Lookahead断言前面有逗号或行尾

网友

2楼 · 编辑于 2024-04-28 15:58:47

类似这样的方法会奏效：

(.+(?=,)|\S+$)

(-启动捕获组#1
.+(?=,)-在逗号之前获取所有内容
|-或
\S+$-在行尾之前获取所有不是空白的内容
)-末端捕获群#1

https://regex101.com/r/myvyS0/1

Python:

str.extract(r'(.+(?=,)|\S+$)', expand=False)

相关问题更多 >

编程相关推荐

热门问题

热门文章

多种形式文本格式上的正则表达式文本清理

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >