如何使用python从文本中提取单词?

2024-03-28 08:29:41 发布

您现在位置:Python中文网/ 问答频道 /正文

我需要提取课文中的单词和短语。例如,文本是:

Привет, hello, как дела? english word, еще одно русское слово, слово-1224, тест 4456

脚本应返回以下内容:

^{pr2}$

也就是说,我需要从所有以俄语字母([а-яА-Яё-])开头的单词的文本中提取,并且可以包含俄语字母表中的数字和字母。这是如何实施的?在


Tags: 文本脚本helloenglish字母数字单词字母表
1条回答
网友
1楼 · 发布于 2024-03-28 08:29:41

这比我想象的要复杂一点。从未使用过西里尔字符。我认为这应该:

text =  # Set you're input unicode string here.
words = re.findall('[\p{IsCyrillic}][0-9\p{IsCyrillic}]+', text)

for word in words:
    print word

相关问题 更多 >