捕获韩文字母的正则表达式

2024-04-20 10:29:50 发布

您现在位置:Python中文网/ 问答频道 /正文

我的数据帧名称如下:

'가락시장(340)',
'가락시장(8)',
'가산디지털단지(7)',
'강남(222)',
'강남구청',
'강동',
'강동구청',
'강변(214)',
'개롱',
'개화산',
'거여',
'건대입구(212)',
'건대입구(7)',
'경복궁(317)',
'경찰병원(341)',
'고덕',
'고려대',
'고속터미널(329)',
'고속터미널(7)',
'공덕(5)',
'공덕(6)',
'공릉',
'광나루',
...

所有列表在此link

期望输出:

^{2}$

尝试

import re

for i in df['name']:
    i = re.match('^[가-힣]*$', i) # '^[가-힣]&$ is extract Hangeul (Korean alphabet)

但是df['name']没有改变。在

我怎么解决这个问题?在


Tags: 数据nameinimportre名称df列表
2条回答

可以使用以下代码删除括号和带圆括号的字符:

import re
pattern = re.compile(r'\(\w*\)')
for text in YOUR_DATA_LIST : 
    only_station_name = re.sub(pattern, '', text)
    print(only_station_name)

我们可以用一个简单的表达式捕捉您想要的输出,只使用一个'作为左边界,然后收集字母,类似于:

'([\p{L}]+)

测试

^{pr2}$

enter image description here

正则表达式

如果不需要这个表达式,可以在regex101.com中修改或更改它。在

正则表达式电路

jex.im可视化正则表达式:

参考

How to implement \p{L} in python regex

相关问题 更多 >