nlcodec是自然语言序列的编码方案集合
nlcodec的Python项目详细描述
NL编解码器
注意:这些文档可以在https://isi-nlp.github.io/nlcodec上找到
一组(低级)自然语言编解码器(编解码器),在预处理阶段有用 NLP管道。这些编码序列之一包括:
- 性格
- 字
- 基于BPE的子词
它提供python(因此嵌入到应用程序中)和cliapi(将其用作独立工具)。在
已经有许多BPE实现可用,但这一个提供了不同的:
- 纯python实现,很容易修改任何东西来尝试新的想法。 (其他实现需要c++专业知识来修改内核)
- BPE模型是一个简单的文本,可以用
less
或cut
检查。它包括什么样的信息和频率 - 比其他纯python实现快得多——python的速度伴随着索引所带来的额外内存成本。在
- PySpark后端用于从大型数据集中提取术语频率
安装
请只运行其中一个
# Clone repo for development mode (preferred mode) git clone https://github.com/isi-nlp/nlcodec cd nlcodec pip install --editable . # Install from github, directly $ pip install git+https://github.com/isi-nlp/nlcodec.git # Install from pypi $ pip install nlcodec
pip安装程序在路径中注册名为nlcodec
的cli工具
它的作用是命令行界面。
您可以通过python -m nlcodec
或
python path/to/nlcodec/__main__.py
如果你愿意的话!在
文件可在
作者
- 项目
标签: