如何使用Sklearn处理随机林的字符列

2024-05-14 18:21:55 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个带有“title”、“content”列的数据框。是关于一些报纸文章的。为了预测一个变量,我想对它做一个随机林:negatif,positif或neutral

因此,我的特征变量将是标题和内容,而我的探索变量将是例如“情绪”(negatif、positif或neutral)。 问题是我只有字符列。我不能把一些编码作为一个热编码,因为所有的原始数据都是不同的,所以会有很多不同的编码,因为有行

我不知道如何继续。。。我可以自己为训练集手动指定探索变量吗?如果你有一些迹象,以便我继续我的项目,非常感谢

df = pd.DataFrame(columns=["title", "content"], data=[["The Rise and Fall of Heidelberg Street","McDougall-Hunt a small neighborhood of single-..."]])
df.head()

title                                           content

The Rise and Fall of Heidelberg Street          McDougall-Hunt a small neighborhood of single-...

Tags: andofthestreet编码dftitlecontent
2条回答

如果您想创建基线,我建议您使用TF-IDFTfidfTransformer来对文本进行矢量化表示

TF-IDF基本上是一种统计度量,用于评估单词与文档集合中文档的相关性

您可以简单地连接标题和内容,然后通过以下管道传递:

from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer
from sklearn.linear_model import SGDClassifier
from sklearn.pipeline import Pipeline

df['text'] = df['title']+' '+df['content']
X=df['text']
y=df['sentiment']
pipeline = Pipeline([
    ('vect', CountVectorizer()),
    ('tfidf', TfidfTransformer()),
    ('clf', SGDClassifier()),
])
pipeline.fit(X, y)

我建议您阅读这些功能提取文档,因为它们将帮助您了解它们是如何工作的

可以使用以下命令将它们转换为伪变量

import pandas as pd
dummies = pd.get_dummies(df)

相关问题 更多 >

    热门问题