我有一个网球运动员的名字,显然熊猫没有正确解析。是“拉德瓦?斯卡”。我有两个函数,其中我使用word_tokenize()
函数进行标记化。
它在两种不同的功能中以两种不同的方式表示句子。如何让第二辆车走第一条路['radwa?ska']
['radwa','?','ska']
这是两个函数的代码。
第一个功能:word_tokenize(keyword)
关键字是'martina hingis, nadia petrova, agnieszka radwa?ska'
第二个函数是:word_tokenize(content[j])
其中内容[j]是'agnieszka radwa?ska'
。你知道吗
对于原始帖子中的两个句子,它们应该返回相同的输出:
这是因为
TreebankWordTokenizer
后面的word_tokenize
对象总是在https://github.com/nltk/nltk/blob/develop/nltk/tokenize/treebank.py#L80处的问号前后加一个空格一个人可以用一些方法来禁用regex,但它会在其他地方引起问题。你知道吗
但我敦促您仔细看看您是如何读取/收集数据的,
radwa?ska
的出现暗示了在标记化之前上游存在一些编码问题。正确读取文件/流会使您radwańska
。你知道吗另请参见
相关问题 更多 >
编程相关推荐