擅长:python、mysql、java
<p>最简单、最粗糙的方法是:</p>
<ol>
<li><p>从每一页中提取前N个术语(关键字)(可以像按频率排列的前N个术语一样简单,不包括停止词,如英语中的“a,the,an”)。这将为每个页面提供一个功能集。</p></li>
<li><p>比较页面之间的顶部术语是否重叠。您可以使用Wordnet比较术语的同义词,例如运动鞋。如果你有某种程度的关键字重叠,那么页面在某种程度上是相关的。</p></li>
</ol>
<p>编辑:</p>
<p>为每一页导出一组特征关键字的更好方法是为每一页提取具有统计意义的单词。你可以通过从参考文本(如维基百科)中获取或编译一个(12和3个单词)<a href="http://en.wikipedia.org/wiki/N-gram" rel="nofollow">n-grams</a>的列表,然后计算页面上单词/短语的n-gram,并将n-gram的出现频率与全局n-gram集中的频率进行比较。如果你发现你的页面上有n个单词出现的频率比你在参考语料库中预期的要高,那么它们在统计上对该页面来说是有意义的。在</p>
<p>这其中最困难的部分是获取或编译参考n-gram(它需要足够大,以便在统计上可行),你需要将其与网页上的n-gram进行比较。你可以获得google的n-gram语料库,也可以通过浏览免费下载的网站(如wikipedia)来构建自己的语料库。如果你在google上看看,其他人可能已经发布了一个免费的n-gram集。在</p>