nlcodec是自然语言序列的编码方案集合

nlcodec的Python项目详细描述


NL编解码器

注意:这些文档可以在https://isi-nlp.github.io/nlcodec上找到

一组(低级)自然语言编解码器(编解码器),在预处理阶段有用 NLP管道。这些编码序列之一包括:

  1. 性格
  2. 基于BPE的子词

它提供python(因此嵌入到应用程序中)和cliapi(将其用作独立工具)。在

已经有许多BPE实现可用,但这一个提供了不同的:

  1. 纯python实现,很容易修改任何东西来尝试新的想法。 (其他实现需要c++专业知识来修改内核)
  2. BPE模型是一个简单的文本,可以用lesscut检查。它包括什么样的信息和频率
  3. 比其他纯python实现快得多——python的速度伴随着索引所带来的额外内存成本。在
  4. PySpark后端用于从大型数据集中提取术语频率

安装

请只运行其中一个

# Clone repo for development mode (preferred  mode)
git clone https://github.com/isi-nlp/nlcodec
cd nlcodec
pip install --editable . 

# Install from github, directly
$ pip install git+https://github.com/isi-nlp/nlcodec.git


# Install from pypi
$ pip install nlcodec

pip安装程序在路径中注册名为nlcodec的cli工具 它的作用是命令行界面。 您可以通过python -m nlcodecpython path/to/nlcodec/__main__.py如果你愿意的话!在

文件可在

作者

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
JavaSpringbean已创建但未自动连接   java LibGDX游戏在三星Galaxy Grand Prime上结束   如何在Java中列出字符串句子中所有匹配条件的单词   java在Recyclerview中使用“putExtra”传递数据   java从一个特定的数组中提取特定的JSON对象,以便在Android中通过一个意图放入另一个活动   java需要使用IntelliJ和设置项目SDK的帮助   java springcontextindexer和Swagger 3   java使用indexOf和substring计算数字   java使用xml解析在word文档中查找隐式分页符   在添加<context:componentscan basepackage=“com.young.user”/   java无条件更改JTable单元格的背景色   选择列表中的java调用oracle函数:节点无数据类型   java如何添加缓冲图像作为JFrame的背景,然后在此图像上添加面板?   java Javadoc找不到用scala编写的类   java连接到文件共享程序的IP地址   java将数组元素加载到集合中   Tomcat中的java servlet、过滤器和线程   非Bean对象中的java EJB CDI注入?   java与println和printf的不同舍入