用于分析和(预)处理yor_bátext的实用程序库

iranlowo的Python项目详细描述


rénl_w_

Build StatusPyPIPyPI - Python VersionLicenseStyle

r r a nl_769;w_769;是一组用于分析和处理NLP任务的文本的实用程序。重点是帮助软件开发人员构建大型、干净的文本数据集,用于(进一步)音调符号恢复和机器翻译任务。

功能

ADR工具

  • [X]从单词类型中删除所有音调符号
  • [X]确认文本是NFC或NFD
  • [X]规范化语料库(来自MS Word或其他地方)→NFC
  • [X]在某些字符上拆分长句,如;:,等等
  • [X]使用预先训练的模型自动恢复正确的音调符号
  • [X]查找给定语料库中所有单词类型的所有变体
  • []从单词类型中部分去掉音调符号

准备好使用网页刮板

  • [X]Bíbél_mím_(尼日利亚圣经协会,Biblica Society of Nigeria)
  • []你的博客
  • []英国广播公司

语料库分析工具

  • [X]数据集字符分布
  • [X]给定语料库的数据集ambuuity statistics→lexdif等
  • <数据集评分(接近正确的文本,LM困惑,KL散度)

安装

可从Python Package Index (PyPI)pip install iranlowo

示例

  • 显示计算环境和安装过程
  • 对短语进行变音处理
$ python
Python 3.7.3 (default, Mar 27 2019, 16:54:48)
[Clang 4.0.1 (tags/RELEASE_401/final)] :: Anaconda, Inc. on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import iranlowo.adr as ránlọ
>>> ránlọ.diacritize_text("lootoo ni pe ojo gbogbo ni ti ole")
PRED AVG SCORE: -0.0037, PRED PPL: 1.0037
'lóòtóọ́ ni pé ọjọ́ gbogbo ni ti olè' 
  • 变音短语,注意我们使用ipython只是因为它在终端中呈现出更好的、易于阅读的文本颜色!

免责声明

这是测试版软件,如果你通过了变音符号、英语、洋泾浜语或任何其他非约伯语,你会体验到非常奇妙的黑盒效果。

由于这是一项正在进行的工作,我们正在稳步改进,如果您在正确性或性能方面遇到任何问题,请提交pull-requests和更正,或提交issue

许可证

这个项目是根据MIT License授权的。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java获取骆驼路由交换正文()中的无效字符   java如何在Android中创建多语言枚举?   java如何将多个ArrayList<Hashmap>值组合到一个ListView中   后缀运算符Java后增量和预增量行为   SQlite在java中更新列号   Mac OS Yosemite上的java No JRE 1.8虚拟机   java swing在Jlabel中遇到问题   JAVAutil。scanner小java程序打印不可见的换行符?   java从原点到点的路径数   java重写Excel列而不是创建新列   将一行从SQL数据映射到Java对象   spring Application Insights Java SDK+代理不能很好地协同工作   java排序字符串列表?不使用长度函数查找列表的长度   java使用stream collect返回相同的列表,对重复项进行剪切和求和,抛出一个非静态引用   将字母字符与前面没有百分号的Java正则表达式匹配