识别短文本的语言?

20 投票
6 回答
7121 浏览
提问于 2025-04-15 20:42

我有一份文章列表,每篇文章都有自己的标题和描述。不过,遗憾的是,我用的这些来源并不能告诉我这些文章是用什么语言写的。

而且,文章的内容并不完全是用一种语言写的;几乎总是会夹杂一些英语单词。

我觉得我可能需要在我的电脑上存储一些词典数据库,但这听起来有点不切实际。你有什么建议吗?

6 个回答

4

如果你不介意使用网络服务来帮你完成工作,可以试试Google AJAX语言API

4

你有没有去看看这个网站 http://ling.unizd.hr/~dcavar/LID/ 和这个维基百科页面 http://en.wikipedia.org/wiki/Language_identification 呢?

15

我会使用这个叫做 guess-language 的项目。

补充一下:现在可以在 Bitbucket 找到它。

撰写回答