一个python包(在引擎盖下使用docker图像)来对德语文本进行柠檬化。

german-lemmatizer的Python项目详细描述


Scissors

德国狐猴

python包(在引擎盖下使用docker图像)来lemmatize德语文本。

建立在:

它的工作原理如下。首先spaCy用pos标记令牌,然后German Lemmatizer查找iwnlp和germanlema上的引理。如果他们不同意,从iwnlp中选择一个。如果他们同意或者只有一个工具找到了,就拿走它。尝试保留原始令牌的大小写。

您可能需要使用底层docker映像:german-lemmatizer-docker

安装

  1. 安装Docker
  2. pip install german-lemmatizer

用法

  1. 阅读并接受license terms of the TIGER Corpus(免费用于非商业目的)。
  2. 确保Docker守护进程运行。
  3. 编写一些python代码
fromgerman_lemmatizerimportlemmatizelemmatize(['Johannes war ein guter Schüler','Sabiene sang zahlreiche Lieder'],working_dir='*',chunk_size=10000,n_jobs=1,escape=False,remove_stop=False)

文本列表被分成块(chunk_size)并并行处理(n_jobs)。

如果文本包含新闻线,请启用escape参数。remove_stop删除由spacy定义的停止字。

许可证

麻省理工学院。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java Camera API如何聚焦图像中多边形的中心?   来自Java的spring Filling邮戳模板   java只能编织本地JAR的方面吗?   javajavax。加密。BadPaddingException:解密错误无法解密加密的公钥   从java运行ansibleplaybook   在Java中,如何从不同的偏移量读取大块的字符串文件?   java Android GridView将无法确定正确的位置   executorservice如何使用自动线程管理在Java中实现生产者/消费者   JavaEJB3.1嵌入式API单元测试EJB+JPA实体   API的java输出自动停止   java Checkmarx缺陷解决方案   java缓存,获取最早的元素   WebSphere8中的JavaEJB问题   两个时区之间的java Jodatime时差   Java 8不兼容类型错误   java TableCellEditor:如果按下该键,则清除原始文本;如果没有输入,则保留值