擅长:python、mysql、java
<p>对于巨大的数据集,有一种解决方案叫做<strong>按概念的文本聚类</strong>。搜索引擎使用这种技术</p>
<p>在第一步,您将您的文档聚类到一些组(例如50个集群),然后每个集群都有一个具有代表性的文档(其中包含一些单词,其中包含有关其集群的一些有用信息)<br/>
在第二步,为了计算新文档和您的数据集之间的余弦相似性,您将遍历所有代表(50个数字)并找到顶部附近的代表(例如2个代表性)<br/>
在最后一步中,您可以遍历选定代表中的所有文档,并找到最接近的余弦相似度</p>
<p>有了这种技术,你可以减少循环次数,提高性能,
你可以在这本书的某一章里读到更多的技巧:<a href="http://nlp.stanford.edu/IR-book/html/htmledition/irbook.html" rel="nofollow">http://nlp.stanford.edu/IR-book/html/htmledition/irbook.html</a></p>