擅长:python、mysql、java
<p>看看<a href="http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html#sklearn.feature_extraction.text.CountVectorizer.fit_transform" rel="noreferrer">the docs</a>。它说<code>CountVectorizer.fit_transform</code>需要一个iterable字符串(例如,字符串列表)。而是传递一个<strong>字符串。</p>
<p>这很有意义,scikit中的fit_转换做两件事:1)它学习一个模型(fit)2)它将模型应用于数据(transform)。您需要构建一个矩阵,其中列是词汇表中的所有单词,行对应于文档。为此,你需要知道你的语料库中的全部词汇(所有的列)。</p>