一个python包(在引擎盖下使用docker图像)来对德语文本进行柠檬化。
german-lemmatizer的Python项目详细描述
德国狐猴
python包(在引擎盖下使用docker图像)来lemmatize德语文本。
建立在:
- IWNLP在de.wikitionary上使用群组生成的令牌表。
- GermaLemma:在TIGER Corpus中查找引理,并使用Pattern作为某些基于规则的引理的回退。
它的工作原理如下。首先spaCy用pos标记令牌,然后German Lemmatizer
查找iwnlp和germanlema上的引理。如果他们不同意,从iwnlp中选择一个。如果他们同意或者只有一个工具找到了,就拿走它。尝试保留原始令牌的大小写。
您可能需要使用底层docker映像:german-lemmatizer-docker
安装
- 安装Docker。
pip install german-lemmatizer
用法
- 阅读并接受license terms of the TIGER Corpus(免费用于非商业目的)。
- 确保Docker守护进程运行。
- 编写一些python代码
fromgerman_lemmatizerimportlemmatizelemmatize(['Johannes war ein guter Schüler','Sabiene sang zahlreiche Lieder'],working_dir='*',chunk_size=10000,n_jobs=1,escape=False,remove_stop=False)
文本列表被分成块(chunk_size
)并并行处理(n_jobs
)。
如果文本包含新闻线,请启用escape
参数。remove_stop
删除由spacy定义的停止字。
许可证
麻省理工学院。