擅长:python、mysql、java
<p>我认为最好的选择是Chi^2,infogain,tfidf,条件概率。为什么所有这些都需要线性复杂性。当我们讨论文本数据库时,所有的决策树都不是很可伸缩的。但是为了计算这些属性,我们可以使用任何索引工具,比如Lucene。所以我的建议是计算每个单词的信息增益,然后选择最佳。<a href="http://en.wikipedia.org/wiki/Information_gain_in_decision_trees" rel="nofollow">http://en.wikipedia.org/wiki/Information_gain_in_decision_trees</a></p>