用于分析和(预)处理yor_bátext的实用程序库
iranlowo的Python项目详细描述
rénl_w_
r r a nl_769;w_769;是一组用于分析和处理NLP任务的文本的实用程序。重点是帮助软件开发人员构建大型、干净的文本数据集,用于(进一步)音调符号恢复和机器翻译任务。
功能
ADR工具
- [X]从单词类型中删除所有音调符号
- [X]确认文本是NFC或NFD
- [X]规范化语料库(来自MS Word或其他地方)→NFC
- [X]在某些字符上拆分长句,如
;
、:
,等等 - [X]使用预先训练的模型自动恢复正确的音调符号
- [X]查找给定语料库中所有单词类型的所有变体
- []从单词类型中部分去掉音调符号
准备好使用网页刮板
- [X]Bíbél_mím_(尼日利亚圣经协会,Biblica Society of Nigeria)
- []你的博客
- []英国广播公司
语料库分析工具
- [X]数据集字符分布
- [X]给定语料库的数据集ambuuity statistics→lexdif等 <数据集评分(接近正确的文本,LM困惑,KL散度)
安装
可从Python Package Index (PyPI)→pip install iranlowo
示例
- 显示计算环境和安装过程
- 对短语进行变音处理
$ python
Python 3.7.3 (default, Mar 27 2019, 16:54:48)
[Clang 4.0.1 (tags/RELEASE_401/final)] :: Anaconda, Inc. on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import iranlowo.adr as ránlọ
>>> ránlọ.diacritize_text("lootoo ni pe ojo gbogbo ni ti ole")
PRED AVG SCORE: -0.0037, PRED PPL: 1.0037
'lóòtóọ́ ni pé ọjọ́ gbogbo ni ti olè'
- 变音短语,注意我们使用
ipython
只是因为它在终端中呈现出更好的、易于阅读的文本颜色!
免责声明
这是测试版软件,如果你通过了变音符号、英语、洋泾浜语或任何其他非约伯语,你会体验到非常奇妙的黑盒效果。
由于这是一项正在进行的工作,我们正在稳步改进,如果您在正确性或性能方面遇到任何问题,请提交pull-requests和更正,或提交issue。
许可证
这个项目是根据MIT License授权的。