Python中的正则表达式中的俄语符号

14 投票

6 回答

21869 浏览

提问于 2025-04-17 19:18

我从一个文件中获取数据：

words = re.findall(r'[\w]+',self._from.encode('utf8'),re.U)

如果文件内容是：

嗨，你好吗？

那么结果将会是：

['嗨', '你', '好', '吗']

但是如果文件内容是俄语（也就是西里尔字母），比如：

Привет, как дела?

在这种情况下，结果是：

['\xd0', '\xd1', '\xd0', '\xd0\xb2\xd0\xb5\xd1', '\xd0\xba\xd0', '\xd0\xba', '\xd0', '\xd0\xb5\xd0', '\xd0']

这是为什么呢？真让人困惑！

我已经添加了：

sys.setdefaultencoding('utf-8')

我使用的是python2.7和linux ubuntu。

回答：

words = re.findall(r'[\w]+',self._from.decode('utf8'),re.U)
print u" ".join(words)

正则表达式 Linux 数据处理文本解析编码问题西里尔字母 python2.7 俄语符号

查看UTF西里尔字母块以准确定义正则表达式：

大部分字符代码在一个范围内，但有些不在这个范围内：

re.compile('[А-Яа-яЁё]+')

re.fullmatch("[А-Яа-яЁё ]+", "Ёжик в тумане")

另外，根据你的需求，你可能还想包括 Ѣ ѣ（也叫“Ять”）或其他一些旧符号。

回答于 2025-04-17 由 Python大师

分享举报

我的解决方案：

txt = re.findall(r'[А-я]+', data)

А到я - 这是俄语字母表的字母

回答于 2025-04-17 由 Python大师

分享举报

要使用 \w+ 来匹配字母数字的 unicode 字符，你需要同时给 re.findall 提供一个 unicode 模式和 unicode 文本。

回答于 2025-04-17 由 Python大师

分享举报