NLTK股票文本中unicode文本的混乱外观

2024-04-29 08:14:09 发布

您现在位置:Python中文网/ 问答频道 /正文

我已经开始学习第1版的Python自然语言处理(Natural Language Processing With Python)(2009),遇到了一些奇怪的行为,我的输出与书中所说的不匹配。你知道吗

例如,考虑本书(第8页)中的以下示例:

enter image description here

但是,每当我尝试执行相同的操作时,输出的每个单词都是unicode文本:

>>> sorted(set(text3))
[u'!', u"'", u'(', u')', u',', u',)', u'.', u'.)', u':', u';', u';)', u'?',
 u'?)', u'A', u'Abel', u'Abelmizraim', u'Abidah', u'Abide', u'Abimael', 
u'Abimelech', u'Abr', u'Abrah', u'Abraham', u'Abram', u'Accad', u'Achbor', u'Adah'...]

这是怎么回事?你知道吗

在Mac OS X 10.10.5和NLTK版本3.0.4上使用Python 2.7.10。你知道吗


Tags: 文本示例withunicodenatural单词languagesorted