在pythonv2或v3中不能使用NLTK pos撸标记

2024-03-29 13:22:15 发布

您现在位置:Python中文网/ 问答频道 /正文

我是一个语言学家,我想弄清楚如何使用NLTK以及如何标记语料库中的词性。你知道吗

我正在尝试使用pos\u标签函数,并得到与另一张海报相同的错误消息:ascii编解码器无法解码字节。。。你知道吗

请参阅以下链接:NLTK 3 POS_TAG throws UnicodeDecodeError

我尝试了所有建议的解决方案,包括原始海报给出的解决方案,但都没有成功。你知道吗

这个问题还有其他可能的解决办法吗?你知道吗


Tags: 函数标记pos消息错误编解码器ascii标签
1条回答
网友
1楼 · 发布于 2024-03-29 13:22:15

听起来像是出现了unicode错误。你的语料来自哪里?您可能有一些类似于“0xd1”或类似的字符。这是一个非常标准的问题,处理起来往往很痛苦。根据我的经验,必须使用正则表达式替换来删除这些字符。你知道吗

确切的错误是什么?如果你提供,我可以帮助你用正则表达式删除坏令牌。你知道吗

相关问题 更多 >