用Stanford NLP（Stanfordnertager和Stanfordpostager）为西班牙语设置NLTK

st.tag('Adolfo se la pasa corriendo'.split()) Error: no se ha encontrado o cargado la clase principal edu.stanford.nlp.ie.crf.CRFClassifier --------------------------------------------------------------------------- OSError Traceback (most recent call last) <ipython-input-14-0c1a96b480a6> in <module>() ----> 1 st.tag('Adolfo se la pasa corriendo'.split()) /home/nanounanue/.pyenv/versions/3.4.3/lib/python3.4/site-packages/nltk/tag/stanford.py in tag(self, tokens) 64 def tag(self, tokens): 65 # This function should return list of tuple rather than list of list ---> 66 return sum(self.tag_sents([tokens]), []) 67 68 def tag_sents(self, sentences): /home/nanounanue/.pyenv/versions/3.4.3/lib/python3.4/site-packages/nltk/tag/stanford.py in tag_sents(self, sentences) 87 # Run the tagger and get the output 88 stanpos_output, _stderr = java(cmd, classpath=self._stanford_jar, ---> 89 stdout=PIPE, stderr=PIPE) 90 stanpos_output = stanpos_output.decode(encoding) 91 /home/nanounanue/.pyenv/versions/3.4.3/lib/python3.4/site-packages/nltk/__init__.py in java(cmd, classpath, stdin, stdout, stderr, blocking) 132 if p.returncode != 0: 133 print(_decode_stdoutdata(stderr)) --> 134 raise OSError('Java command failed : ' + str(cmd)) 135 136 return (stdout, stderr) OSError: Java command failed : ['/usr/bin/java', '-mx1000m', '-cp', '/home/nanounanue/Descargas/stanford-spanish-corenlp-2015-01-08-models.jar', 'edu.stanford.nlp.ie.crf.CRFClassifier', '-loadClassifier', '/home/nanounanue/Descargas/stanford-postagger-full-2015-04-20.zip', '-textFile', '/tmp/tmp6y169div', '-outputFormat', 'slashTags', '-tokenizerFactory', 'edu.stanford.nlp.process.WhitespaceTokenizer', '-tokenizerOptions', '"tokenizeNLs=false"', '-encoding', 'utf8']

2条回答

网友

1楼 · 编辑于 2024-05-17 00:00:38

尝试：

# StanfordPOSTagger
from nltk.tag.stanford import StanfordPOSTagger
stanford_dir = '/home/me/stanford/stanford-postagger-full-2015-04-20/'
modelfile = stanford_dir + 'models/english-bidirectional-distsim.tagger'
jarfile = stanford_dir + 'stanford-postagger.jar'

st = StanfordPOSTagger(model_filename=modelfile, path_to_jar=jarfile)


# NERTagger
stanford_dir = '/home/me/stanford/stanford-ner-2015-04-20/'
jarfile = stanford_dir + 'stanford-ner.jar'
modelfile = stanford_dir + 'classifiers/english.all.3class.distsim.crf.ser.gz'

st = StanfordNERTagger(model_filename=modelfile, path_to_jar=jarfile)

有关使用斯坦福工具的NLTK API的详细信息，请查看：https://github.com/nltk/nltk/wiki/Installing-Third-Party-Software#stanford-tagger-ner-tokenizer-and-parser

注意：nltkapi是针对各个斯坦福工具的，如果您使用的是斯坦福核心NLP，最好遵循http://www.eecs.qmul.ac.uk/~dm303/stanford-dependency-parser-nltk-and-anaconda.html上的@dimazest说明

编辑

至于西班牙语的NER标记，我强烈建议您使用Stanford Core NLP（http://nlp.stanford.edu/software/corenlp.shtml），而不是使用Stanford NER包（http://nlp.stanford.edu/software/CRF-NER.shtml）。并按照@dimazest解决方案读取JSON文件。

或者，如果您必须使用NER packge，您可以尝试按照https://github.com/alvations/nltk_cli（免责声明：此repo不是NLTK的正式附属协议）中的说明进行操作。在unix命令行上执行以下操作：

cd $HOME
wget http://nlp.stanford.edu/software/stanford-spanish-corenlp-2015-01-08-models.jar
unzip stanford-spanish-corenlp-2015-01-08-models.jar -d stanford-spanish
cp stanford-spanish/edu/stanford/nlp/models/ner/* /home/me/stanford/stanford-ner-2015-04-20/ner/classifiers/

然后在python中：

# NERTagger
stanford_dir = '/home/me/stanford/stanford-ner-2015-04-20/'
jarfile = stanford_dir + 'stanford-ner.jar'
modelfile = stanford_dir + 'classifiers/spanish.ancora.distsim.s512.crf.ser.gz'

st = StanfordNERTagger(model_filename=modelfile, path_to_jar=jarfile)

网友

2楼 · 编辑于 2024-05-17 00:00:38

错误在于为StanfordNerTagger函数编写的参数。

第一个参数应该是模型文件或您正在使用的分类器。你可以在斯坦福的zip文件中找到这个文件。例如：

    st = StanfordNERTagger('/home/me/stanford/stanford-postagger-full-2015-04-20/classifier/tagger.ser.gz', '/home/me/stanford/stanford-spanish-corenlp-2015-01-08-models.jar')

编辑

相关问题更多 >

编程相关推荐

热门问题

热门文章