检测文本是否为英语（批量）

网友

1楼 · 编辑于 2024-05-15 21:13:22

我读了一个用Trigrams检测英语的方法

你可以浏览文本，试着找出单词中最常用的三联图。如果用得最多的词与英语中用得最多的词相匹配，课文可以用英语写

尝试查看这个ruby项目：

https://github.com/feedbackmine/language_detector

网友

2楼 · 编辑于 2024-05-15 21:13:22

编辑：这在这种情况下是行不通的，因为OP正在处理大量的文本，这与谷歌的TOS背道而驰。

使用Google翻译language detect API。文档中的Python示例：

url = ('https://ajax.googleapis.com/ajax/services/language/detect?' +
       'v=1.0&q=Hola,%20mi%20amigo!&key=INSERT-YOUR-KEY&userip=INSERT-USER-IP')
request = urllib2.Request(url, None, {'Referer': /* Enter the URL of your site here */})
response = urllib2.urlopen(request)
results = simplejson.load(response)
if results['responseData']['language'] == 'en':
    print 'English detected'

网友

3楼 · 编辑于 2024-05-15 21:13:22

虽然没有Google的好，但是我使用Apache Nutch语言标识符已经取得了很好的效果，它带有自己的预训练ngram模型。我在一个大的（50gbpdf，主要是文本）真实世界数据语料库中用几种语言得到了很好的结果。

它是用Java编写的，但我相信如果您想用Python重新实现它，您可以从中重新读取ngram概要文件。

相关问题更多 >

编程相关推荐

热门问题

热门文章

检测文本是否为英语（批量）

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >