regexp匹配中的元音变音符（通过locale？）

locale.setlocale(locale.LC_ALL, 'de_DE.UTF-8') re.findall(r'\w+', 'abc def g\xfci jkl', re.L) re.findall(r'\w+', 'abc def g\xc3\xbci jkl', re.L) re.findall(r'\w+', 'abc def güi jkl', re.L) re.findall(r'\w+', u'abc def güi jkl', re.L)

2条回答

网友

1楼 · 编辑于 2024-05-16 11:51:02

在我的例子中，\S比\w给出了更好的结果，加上将文件保存为utf-8，再加上使用re.UNICODE

网友

2楼 · 编辑于 2024-05-16 11:51:02

您是否尝试使用re.UNICODE标志，如doc中所述？

>>> re.findall(r'\w+', 'abc def güi jkl', re.UNICODE)
['abc', 'def', 'g\xc3\xbci', 'jkl']

快速搜索指向这个thread给出了一些解释：

re.LOCALE just passes the character to the underlying C library. It really only works on bytestrings which have 1 byte per character. UTF-8 encodes codepoints outside the ASCII range to multiple bytes per codepoint, and the re module will treat each of those bytes as a separate character.

编程相关推荐

java Android：在ListView上使用setOnItemClickListener
使用Netbeans 7.0连接到SQL Server的java正在挂起
java Spring3依赖项注入不适用于mule
java Flink SQL结果字段与LocalDateTime上请求的类型错误不匹配
java找不到文件的结尾
考虑到NamingStrategy，java有没有办法将字符串转换为JsonNode？
使用Netbeans/ant部署java（命令行）应用程序
java如何修复Spring引导多部分上载中的“所需请求部分不存在”
java在应用程序启动时通过引用获取映射未知目标实体属性异常
java形状旋转问题Java2d

相关问题更多 >

编程相关推荐

热门问题

热门文章

regexp匹配中的元音变音符（通过locale？）

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >