如何使用Sklearn处理随机林的字符列

df = pd.DataFrame(columns=["title", "content"], data=[["The Rise and Fall of Heidelberg Street","McDougall-Hunt a small neighborhood of single-..."]]) df.head() title content The Rise and Fall of Heidelberg Street McDougall-Hunt a small neighborhood of single-...

2条回答

网友

1楼 · 编辑于 2024-05-14 18:21:55

如果您想创建基线，我建议您使用TF-IDFTfidfTransformer来对文本进行矢量化表示

TF-IDF基本上是一种统计度量，用于评估单词与文档集合中文档的相关性

您可以简单地连接标题和内容，然后通过以下管道传递：

from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer
from sklearn.linear_model import SGDClassifier
from sklearn.pipeline import Pipeline

df['text'] = df['title']+' '+df['content']
X=df['text']
y=df['sentiment']
pipeline = Pipeline([
    ('vect', CountVectorizer()),
    ('tfidf', TfidfTransformer()),
    ('clf', SGDClassifier()),
])
pipeline.fit(X, y)

我建议您阅读这些功能提取文档，因为它们将帮助您了解它们是如何工作的

网友

2楼 · 编辑于 2024-05-14 18:21:55

可以使用以下命令将它们转换为伪变量

import pandas as pd
dummies = pd.get_dummies(df)

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何使用Sklearn处理随机林的字符列

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >