我有一个标记化文件,我想使用StanfordNLP用POS和依赖项解析标记对其进行注释。 我正在使用具有以下配置的Python脚本:
config = {
'processors': 'pos,lemma,depparse',
'lang': 'de',
'pos_model_path': './de_gsd_models/de_gsd_tagger.pt',
'pos_pretrain_path': './de_gsd_models/de_gsd.pretrain.pt',
'lemma_model_path': './de_gsd_models/de_gsd_lemmatizer.pt',
'depparse_model_path': './de_gsd_models/de_gsd_parser.pt',
'depparse_pretrain_path': './de_gsd_models/de_gsd.pretrain.pt}'
nlp = stanfordnlp.Pipeline(**config)
doc = nlp(text)
但是,我收到以下信息:
是否可以使用Python脚本跳过标记化步骤
提前谢谢
您需要包括
tokenize
处理器,并将属性tokenize_pretokenized
设置为True
。这将假定文本在空格和换行符分隔的句子上标记。您还可以通过一个字符串列表,每个列表代表一个句子,条目是标记这里解释如下:
https://stanfordnlp.github.io/stanza/tokenize.html
相关问题 更多 >
编程相关推荐