两个令牌集合的相似度评分
我有一组网址,这些网址是为某个人找到的。我想把每个网址分类,看看它是关于这个人的(比如他的领英资料、博客或者提到这个人的新闻文章),还是跟这个人没关系。
我现在在用一种比较简单的方法,就是把每个网页的内容拆分成一个个单词,然后和其他网页进行比较,看看每个文档之间有多少相似的单词(不包括一些常见的无意义词),然后把最相似的网页当作正面的匹配。
我在想有没有什么机器学习的方法可以帮助我,让这个任务变得更简单、更准确。简单来说,我想比较两个网页的内容(把内容拆分成单词),然后根据它们的内容来给出一个相似度评分。
1 个回答
0
如果你对Python有点了解,这个自然语言处理的分类器会对你很有帮助:http://www.nltk.org/api/nltk.classify.html#module-nltk.classify
如果你想做无监督的聚类分析,可以使用这个工具:http://www.nltk.org/api/nltk.cluster.html#module-nltk.cluster
如果你只是想找相似度评分,那么这个度量模块会很有用:http://www.nltk.org/api/nltk.metrics.html#module-nltk.metrics
NLP工具包里有你需要的答案,只要浏览一下模块就能找到你想要的东西,别自己手动去实现。