识别短文本的语言?
我有一份文章列表,每篇文章都有自己的标题和描述。不过,遗憾的是,我用的这些来源并不能告诉我这些文章是用什么语言写的。
而且,文章的内容并不完全是用一种语言写的;几乎总是会夹杂一些英语单词。
我觉得我可能需要在我的电脑上存储一些词典数据库,但这听起来有点不切实际。你有什么建议吗?
6 个回答
4
如果你不介意使用网络服务来帮你完成工作,可以试试Google AJAX语言API。
4
你有没有去看看这个网站 http://ling.unizd.hr/~dcavar/LID/ 和这个维基百科页面 http://en.wikipedia.org/wiki/Language_identification 呢?
15
我会使用这个叫做 guess-language 的项目。
补充一下:现在可以在 Bitbucket 找到它。