胡言乱语的训练/测试

pygibberish的Python项目详细描述


概述
==


一个测试乱码的示例python库,该模型可以为给定的字符串打分。
如果该字符串乱码,该分数将非常低。
它使用一个n字符的马尔可夫链。
[![马尔可夫链](http://en.wikipedia.org/wiki/markov廑chain)

例如,ilovepython->;ilo,lov,您可以在包
gib.train('pygibberish/train-data/en-big.txt')
gib.save('en2.pki')
pringib.calc(“asdfasdf”)
pringib.calc(“apple”(“apple”)



;这个演示演示演示如何使用模型文件计算分数

导入pygibberish
如果要导入pygibberish,则如何使用模型文件计算分数

导入pygibberish
姓名_=='主要的':
gib=pygibberish.gibberish('en2.pki')
print gib.calc(“asdfasdf”)
````


例如,在“rob喜欢黑客”的文本中,它看到ro,ob,o[空格],[空格]l,…它只计算这些对。在读取完训练数据后,它会将计数标准化。然后每个字符在给定的首字母之后有26个后续字符的概率分布。

*因此,给定一个字符串,它通过将该字符串中相邻字符对的概率相乘来测量根据摘要生成该字符串的概率。例如,对于“r o b喜欢黑客”字符串,它将计算prob['r']['o']*prob['o']['b']*prob['b']['l']…然后,根据模型在训练时观察到的数据,该概率测量分配给该字符串的“惊喜”数量。如果输入字符串有有趣的事情,它将在训练阶段通过一些计数非常低的对,因此具有低概率/高惊喜。

*然后我查看每个字符对于一些已知的好字符串和一些已知的坏字符串的惊喜量,在最令人惊讶的好字符串和最不令人惊讶的坏字符串之间选择一个阈值。然后我使用这个阈值来对任何新的文本进行分类。




欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java FileHandle在libgdx中的行为异常   java JSONObject文本必须在1[字符2第1行]处以“{”开头,在使用HTTPClient自动化API时出现此错误   java如何删除域下不同路径的所有cookie   项目间的java Log4j共享   java propertyChangeListeners连锁反应,导致溢出   java gradle测试错误:retrolambda。oldJdk   java IDE没有给出错误,但ArrayList无法工作   web服务Java大字符串压缩安全方法   java如何从奥地利ecard将ResponseADU解码为XML?   java RxJava 2将事件并行化以执行,并产生副作用   java在jni的CallStaticObjectMethod的引用上使用DeleteLocalRef   java递归查找字符串中出现的字母数   java为什么SBT想要获得组织。scalasbt是否已安装?   java如何动态地增加布局,并知道用户点击了哪个布局?   条形图上未设置java截击响应数据