url = ('https://ajax.googleapis.com/ajax/services/language/detect?' +
'v=1.0&q=Hola,%20mi%20amigo!&key=INSERT-YOUR-KEY&userip=INSERT-USER-IP')
request = urllib2.Request(url, None, {'Referer': /* Enter the URL of your site here */})
response = urllib2.urlopen(request)
results = simplejson.load(response)
if results['responseData']['language'] == 'en':
print 'English detected'
我读了一个用Trigrams检测英语的方法
你可以浏览文本,试着找出单词中最常用的三联图。如果用得最多的词与英语中用得最多的词相匹配,课文可以用英语写
尝试查看这个ruby项目:
https://github.com/feedbackmine/language_detector
编辑:这在这种情况下是行不通的,因为OP正在处理大量的文本,这与谷歌的TOS背道而驰。
使用Google翻译language detect API。文档中的Python示例:
虽然没有Google的好,但是我使用Apache Nutch语言标识符已经取得了很好的效果,它带有自己的预训练ngram模型。我在一个大的(50gbpdf,主要是文本)真实世界数据语料库中用几种语言得到了很好的结果。
它是用Java编写的,但我相信如果您想用Python重新实现它,您可以从中重新读取ngram概要文件。
相关问题 更多 >
编程相关推荐