擅长:python、mysql、java
<p>看看<a href="http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfTransformer.html" rel="nofollow">TfidfTransformer</a>。在</p>
<p>由于您使用的是文本特征,<a href="https://en.wikipedia.org/wiki/Tf%E2%80%93idf" rel="nofollow">TF-IDF representation</a>将为每个特征(单词)分配一个表示其在文本中重要性的数字。这种表示在基于文本的分类中非常常见。在</p>
<p>tfiddtransformer将输出一个矩阵,其中包含文件中使用的所有单词,每行代表一个文档,行中的每个单元格表示一个功能(单词),单元格中的值表示该功能的重要性。在</p>
<p>确保以适当的格式(矩阵)将字数统计数据传递给它,然后使用此TfidfTtransformer的输出可以训练分类器。在</p>
<p>(到目前为止,我还没有使用过它,只有矢量器版本,但我看到过它可以实现您想要的功能的场景)。在</p>