我正在尝试使用coreNLP的中文文本分割、POS和NER功能。我试图将windows 10
上的official StanfordCoreNLP python package与python 3.6
一起使用。在
我不知道如何让CoreNLP用中文工作。我已经从official corenlp website下载了stanford-corenlp-full-2018-02-27.zip文件以及stanford-chinese-corenlp-2018-02-27-model.jar
文件。部分问题是,斯坦福大学的CoreNLP似乎有数百个python包装器,包括nltk
、stanfordcorenlp
、py-corenlp
等;这使得我很难找到我到底需要为任何特定的包做什么。我目前正在使用corenlp
软件包。我怀疑解决方案是将Chinese.jar的语言或路径传递到分段器中。在
英语代码(来自官方网站):
import corenlp
text = "Chris wrote a simple sentence that he parsed with Stanford CoreNLP."
with corenlp.CoreNLPClient(annotators="tokenize ssplit".split()) as client:
ann = client.annotate(text)
sentence = ann.sentence[0]
sentence.token[0].word
>>>"Chris"
尝试使用一个中文句子会产生POS或NER标记的记忆错误,以及标记化的编码(我相信)错误。在
corenlp-python
充当CoreNLP Server
的客户端。 为了方便起见,调用客户机将启动一个default server
,它提供英语NLP任务。在您可以自己start the server,配置中文支持:
使用python客户机时,告诉它不需要启动
^{pr2}$default server
:相关问题 更多 >
编程相关推荐