pythonnltk中标记化文本与普通文本的区别

2024-04-24 08:17:12 发布

您现在位置:Python中文网/ 问答频道 /正文

我使用WordPunct标记器来标记这个句子:

يي1610;1610;1610;怎样的1077;怎样的1077;怎样的kيض1590;1593;;ع……㬵\怎样的Ÿ159;;1604;;怎样怎样的怎样的怎样的怎样的怎样的怎样的怎样的怎样的怎样的怎样的怎样的怎样的怎样的怎样的怎样的怎样的?怎样的怎样的怎样的\أةيخفي

我的代码是:

import re
import nltk
sentence= " في_بيتنا كل شي لما تحتاجه يضيع ...ادور على شاحن فجأة يختفي ..لدرجة اني اسوي نفسي ادور شيء"
wordsArray = nltk.tokenize.wordpunct_tokenize(sentence)
print " ".join(wordsArray)

我注意到打印的输出与输入语句相同,那么为什么要使用标记器? 另外,使用令牌文件或普通文本文件创建机器翻译系统(MOSES)会有什么区别吗?在


Tags: 文件代码标记importre语句sentence句子
1条回答
网友
1楼 · 发布于 2024-04-24 08:17:12

tokeniser的输出是一个令牌列表(wordsArray)。您要做的是使用以下命令将列表中的令牌再次联接为一个字符串:

print " ".join(wordsArray)

替换为:

^{pr2}$

你关于摩西的第二个问题不清楚,请尽量具体些。在

相关问题 更多 >