我同时使用Nltk和Scikit Learn来做一些文本处理。但是,在我的文档列表中,我有一些不是英文的文档。例如,以下情况可能是正确的:
[ "this is some text written in English",
"this is some more text written in English",
"Ce n'est pas en anglais" ]
为了便于分析,我希望在预处理过程中删除所有非英语句子。但是,有什么好办法可以做到这一点吗?我一直在谷歌搜索,但找不到任何具体的东西,让我识别字符串是否是英语。这是不是在Nltk
或Scikit learn
中没有提供的功能?编辑我见过像this和this这样的问题,但都是针对单个单词的。。。不是“文件”。我需要把一个句子中的每个单词都循环一遍,以检查整个句子是否是英语的吗?
我正在使用Python,所以使用Python的库会更好,但是如果需要的话,我可以切换语言,只是认为Python是最好的。
你可能对我的论文感兴趣。我还对一些工具进行了基准测试。
TL;博士:
您可以安装^{} 并对语言进行分类:
使用魔法库
这个例子直接取自他们的website
有一个叫做langdetect的库。它是从谷歌的语言检测移植而来的,可在这里获得:
https://pypi.python.org/pypi/langdetect
它支持55种现成的语言。
相关问题 更多 >
编程相关推荐