恢复文本大写的库
truecase的Python项目详细描述
TrueCase
独立于语言的统计语言模型 基于python的工具,用于恢复文本的大小写信息。
模型的灵感来源于Lucian Vlad Lita et al., tRuEcasIng的论文,但有一些简化。
在NLTK英语语料库上训练的模型默认带有这个包, 对于其他语言,会提供一个脚本来创建模型。这个模型是 不完美,在一个大的和最新的数据集上训练系统以实现 最好的结果(比如最近维基百科上的一篇文章)。
先决条件
Python3
该项目使用nltk。查找安装说明here。
安装
pip install truecase
用法
简单用例:
>>> import truecase
>>> truecase.get_true_case('hey, what is the weather in new york?')
'Hey, what is the weather in New York?''
培训自己的车型
托多。现在请参考trainer.py
贡献
我看到了很大的改进空间。请随意叉叉和改进。发送一个请求。
作者
- dalton fury-initial work-daltonfury42
许可证
这个项目是在麻省理工学院的许可下授权的-请参见LICENSE.md文件了解详细信息
致谢
- Lucian Vlad Lita et al., tRuEcasIng
- 从truecaser那里借了很多代码,这个想法是由nreimers