Python fasttokenizer包_程序模块 - PyPI

基于C++的快速Unicode基于MG的令牌记录器

fasttokenizer的Python项目详细描述

快速标记器

FastTokenizer是一个用于执行与语言无关的标记器使用unicode信息进行标记化。在

而最初的目标是为了机器翻译，相同的标记器足够通用，可以进行调整由于NLP的处理能力语言和书写系统的范围。在

FastTokenizer的一些显著特性是

提供只是适当数量的标记化。
分段设计为直观和基于规则。这种格式非常适合于下游的NLP模型，如子词建模， RNN或变压器。在
也设计得不那么咄咄逼人。这样可以减少令牌的数量，从而使模型运行得更快。在
在
适用于任何语言/书写系统。在
交叉编程语言。在
执行格式保留unicode规范化。在
在WMT和GLUE等任务上，性能匹配或超过moses标记器。在
标记化可以反转。
但是，应该使用自定义的desegmenter来实现所需的格式因为去分段是高度用例驱动的。在
在

与其他网络标记器的比较

Source:          他的表现遭到《天空体育》评论员内维尔的批评。
Segmenter:       ['他的表现遭到', '《', '天空体育', '》', '评论员内维尔的批评', '。']
Moses:           ['他的表现遭到《天空体育》评论员内维尔的批评。']
Spacy Tokenizer: ['他的表现遭到《天空体育》评论员内维尔的批评。']
Tweet Tokenizer: ['他的表现遭到', '《', '天空体育', '》', '评论员内维尔的批评', '。']
NLTK Tokenizer:  ['他的表现遭到《天空体育》评论员内维尔的批评。'

Source:          AirPods耳機套
Segmenter:       ['AirPods', '耳機套']
Moses:           ['AirPods耳機套']
Spacy Tokenizer: ['AirPods耳機套']
Tweet Tokenizer: ['AirPods耳機套']
NLTK Tokenizer:  ['AirPods耳機套']

Source:          A typical master's programme has a duration of 1-1.5 years.
Segmenter:       ['A', 'typical', "master's", 'programme', 'has', 'a', 'duration', 'of', '1', '@-@', '1.5', 'years', '.']
Moses:           ['A', 'typical', 'master', "'s", 'programme', 'has', 'a', 'duration', 'of', '1', '@-@', '1.5', 'years', '.']
Spacy Tokenizer: ['A', 'typical', "master's", 'programme', 'has', 'a', 'duration', 'of', '1-1.5', 'years.']
Tweet Tokenizer: ['A', 'typical', "master's", 'programme', 'has', 'a', 'duration', 'of', '1-1', '.', '5', 'years', '.']
NLTK Tokenizer:  ['A', 'typical', 'master', "'s", 'programme', 'has', 'a', 'duration', 'of', '1-1.5', 'years', '.']

安装

C++ +EH3>
很快就到了。在
Python
^{pr2}$
使用
C++ +EH3>
#include<fasttokenizer/segmenter.h>Segmentersegmenter=Segmenter(args.protected_dash_split);std::stringtext="Hello World!";std::stringoutput;// Normalizeoutput=segmenter.normalize(text)// Segmentoutput=segmenter.segment(text)// Normalize and segment in one function// Reduce string to icu::UnicodeString overheadoutput=segmenter.normalize_and_segment(text);// Desegmentoutput=segmenter.desegment(text);
Python
importfasttokenizersegmenter=fasttokenizer.Segmenter()text="Hello World!"# Normalizeoutput:str=segmenter.normalize(text)# Segmentoutput:str=segmenter.segment()# Normalize and segmentoutput:str=segmenter.normalize_and_segment(text)# Output of segment is str.# To get tokens, you can split by whitespace.tokens=output.split()# Desegmentoutput:str=segmenter.desegment(text)
标签：
项目
欢迎加入QQ群-->： 979659372
推荐PyPI第三方库
dga
一种简单的离散遗传算法。
kaggle
卡格雷API
gridaurora
极光和电离层模型的网格划分
pipdate
PIP更新帮助程序
LDTk
用于计算任意滤镜的恒星边缘变暗轮廓的工具包。
inspire-matcher
在Inspire中查找与给定记录或参考最相似的记录。
modernp
python中内置类型的扩展方法。
django-user-messages
Offline addon for django.contrib messages.
SchemDraw
电路原理图
django-radio
此应用程序提供了设置收音机的简单方法
tw2.jqplugins.gritter
jquery粗砂插件的toscawidgets2包装器。
django-nomad-country-blogs
一个极简的Django博客系统，用于维护特定国家的博客。
drudge
苦工
qtip
平台性能基准
guide-search
指导管理API

导航栏
项目描述
版本历史
项目链接
首页
标签
许可证: BSD许可证（BSD 3条款）
作者信息:: 暂无
维护者
mingruimingrui
最新PyPI项目
italian_vip_says
UFx
vofs
fake_item_generator
NerEva
django-monologue
fio_product_attribute_strict
climailsystem
pyshape
tbb-devel
npy-append-arra
anthill.tal.macrorenderer
odoo11-addon-stock-a
uuuu
contextil
fyl_nester
appomatic_renderable
teacher
chuletas
slackbot_ce
最新Python常见问题
我是否正确构建了这个递归神经网络
我是否正确理解acquire和realease是如何在python库“线程化”中工作的
我是否正确理解Keras中的批次大小？
我是否正确理解PyTorch的加法和乘法？
我是否正确组织了我的Django应用程序？
我是否正确计算执行时间？如果是这样，那么并行处理将花费更长的时间。这看起来很奇怪
我是否每次创建新项目时都必须在PyCharm中安装numpy？（安装而不是导入）
我是否每次运行jupyter笔记本时都必须重新启动内核？
我是否用python安装了socks模块？
我是否真的需要知道超过一种语言，如果我想要制作网页应用程序？
我是否缺少spaCy柠檬化中的预处理功能？
我是否缺少给定状态下操作的检查？
我是否能够使用函数“count（）”来查找密码中大写字母的数量(（Python）
我是否能够使用用户输入作为colorama模块中的颜色？
我是否能够创建一个能够添加新Django.contrib.auth公司没有登录到管理面板的用户？

fasttokenizer 0.0.2

fasttokenizer的Python项目详细描述

快速标记器

与其他网络标记器的比较

安装

Python

使用

Python

推荐PyPI第三方库

dga

kaggle

gridaurora

pipdate

LDTk

inspire-matcher

modernp

django-user-messages

SchemDraw

django-radio

tw2.jqplugins.gritter

django-nomad-country-blogs

drudge

qtip

guide-search

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签