胡言乱语的训练/测试
pygibberish的Python项目详细描述
概述
==
一个测试乱码的示例python库,该模型可以为给定的字符串打分。
如果该字符串乱码,该分数将非常低。
它使用一个n字符的马尔可夫链。
[![马尔可夫链](http://en.wikipedia.org/wiki/markov廑chain)
例如,ilovepython->;ilo,lov,您可以在包
gib.train('pygibberish/train-data/en-big.txt')
gib.save('en2.pki')
pringib.calc(“asdfasdf”)
pringib.calc(“apple”(“apple”)
;这个演示演示演示如何使用模型文件计算分数
导入pygibberish
如果要导入pygibberish,则如何使用模型文件计算分数
导入pygibberish
姓名_=='主要的':
gib=pygibberish.gibberish('en2.pki')
print gib.calc(“asdfasdf”)
````
例如,在“rob喜欢黑客”的文本中,它看到ro,ob,o[空格],[空格]l,…它只计算这些对。在读取完训练数据后,它会将计数标准化。然后每个字符在给定的首字母之后有26个后续字符的概率分布。
*因此,给定一个字符串,它通过将该字符串中相邻字符对的概率相乘来测量根据摘要生成该字符串的概率。例如,对于“r o b喜欢黑客”字符串,它将计算prob['r']['o']*prob['o']['b']*prob['b']['l']…然后,根据模型在训练时观察到的数据,该概率测量分配给该字符串的“惊喜”数量。如果输入字符串有有趣的事情,它将在训练阶段通过一些计数非常低的对,因此具有低概率/高惊喜。
*然后我查看每个字符对于一些已知的好字符串和一些已知的坏字符串的惊喜量,在最令人惊讶的好字符串和最不令人惊讶的坏字符串之间选择一个阈值。然后我使用这个阈值来对任何新的文本进行分类。
==
一个测试乱码的示例python库,该模型可以为给定的字符串打分。
如果该字符串乱码,该分数将非常低。
它使用一个n字符的马尔可夫链。
[![马尔可夫链](http://en.wikipedia.org/wiki/markov廑chain)
例如,ilovepython->;ilo,lov,您可以在包
gib.train('pygibberish/train-data/en-big.txt')
gib.save('en2.pki')
pringib.calc(“asdfasdf”)
pringib.calc(“apple”(“apple”)
;这个演示演示演示如何使用模型文件计算分数
导入pygibberish
如果要导入pygibberish,则如何使用模型文件计算分数
导入pygibberish
姓名_=='主要的':
gib=pygibberish.gibberish('en2.pki')
print gib.calc(“asdfasdf”)
````
例如,在“rob喜欢黑客”的文本中,它看到ro,ob,o[空格],[空格]l,…它只计算这些对。在读取完训练数据后,它会将计数标准化。然后每个字符在给定的首字母之后有26个后续字符的概率分布。
*因此,给定一个字符串,它通过将该字符串中相邻字符对的概率相乘来测量根据摘要生成该字符串的概率。例如,对于“r o b喜欢黑客”字符串,它将计算prob['r']['o']*prob['o']['b']*prob['b']['l']…然后,根据模型在训练时观察到的数据,该概率测量分配给该字符串的“惊喜”数量。如果输入字符串有有趣的事情,它将在训练阶段通过一些计数非常低的对,因此具有低概率/高惊喜。
*然后我查看每个字符对于一些已知的好字符串和一些已知的坏字符串的惊喜量,在最令人惊讶的好字符串和最不令人惊讶的坏字符串之间选择一个阈值。然后我使用这个阈值来对任何新的文本进行分类。