有 Java 编程相关的问题?

你可以在下面搜索框中键入要查询的问题!

java-Stanford CoreNLP引理无法正确识别

我正在使用命令行中的coreNLP工具来标记一些包含德语文本的文件。我需要得到标记,pos,引理和ner注释。为此,我使用以下命令:

java-cp“*”-Xmx2g-edu。斯坦福。nlp。管道StanfordCoreNLP-注释器标记化、ssplit、pos、引理、ner-文件列表$dir/filelist。input-outputFormat conll——添加java模块。东南方。伊纳。useSUTime 0-outputFormatOptions word、pos、引理、ner-outputDirectory$dir/tagged_articles-replaceExtension-props StanfordCoreNLP德语。属性

然而,我得到的引理并不正确。以下是标记文件的示例:

好的,好的

艺术

adj.副词adj.副词adj.副词adj.副词adj.副词adj.副词adj.副词adj.副词adj.副词adj.副词adj.副词adj.副词

技术公司

卡恩·菲恩·卡恩·诺

杰多克ADV杰多克O

接近

我在那里

格伦森NN格伦森O

斯托恩VVINF斯托恩O

其中一些单词的引理应该是:ist->;sein/Textmengen->;text菜单/菜单->;诺姆/格伦森->;格伦泽。所以很明显是出了什么问题,我想知道可能是什么。任何提示都将不胜感激

我使用的是以下德国模型:stanford-German-corenlp-2018-02-27-models。罐子

根据自述文件,coreNLP工具的版本为“2018-02-27 3.9.1”

java版本“10.0.1”2018-04-17

Java(TM)SE运行时环境18.3(构建10.0.1+10)


共 (1) 个答案

  1. # 1 楼答案

    到目前为止,引理只支持英语:

    Supported human languages

    你可以尝试使用不同的柠檬化器,手动添加柠檬