根据URL自动识别网页的自然语言
我想找一种方法,能够根据网站的URL自动判断网页使用的自然语言。
在Python中,可以用这样的一个函数:
def LanguageUsed (url):
#stuff
这个函数会返回一个语言标识符,比如'en'代表英语,'jp'代表日语等等。
结果总结: 我在Python中找到了一种不错的解决方案,使用了PyPi上的oice.langdet代码。这个方法在区分英语和非英语方面表现得还不错,这正是我目前需要的。需要注意的是,你得用Python的urllib来获取网页的html内容。此外,oice.langdet是GPL许可证的。
如果想要一个更通用的解决方案,可以参考其他人建议的使用三元组(Trigrams)的方法,查看这个ActiveState的Python Cookbook食谱。
谷歌的自然语言检测API效果很好(可能是我见过的最好的)。不过,它是用JavaScript写的,而且他们的服务条款禁止自动化使用。