擅长:python、mysql、java
<p>如果您想创建基线,我建议您使用TF-IDF<code>TfidfTransformer</code>来对文本进行矢量化表示</p>
<p>TF-IDF基本上是一种统计度量,用于评估单词与文档集合中文档的相关性</p>
<p>您可以简单地连接标题和内容,然后通过以下管道传递:</p>
<pre><code>from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer
from sklearn.linear_model import SGDClassifier
from sklearn.pipeline import Pipeline
df['text'] = df['title']+' '+df['content']
X=df['text']
y=df['sentiment']
pipeline = Pipeline([
('vect', CountVectorizer()),
('tfidf', TfidfTransformer()),
('clf', SGDClassifier()),
])
pipeline.fit(X, y)
</code></pre>
<p>我建议您阅读这些功能提取文档,因为它们将帮助您了解它们是如何工作的</p>