我有一个带有“title”、“content”列的数据框。是关于一些报纸文章的。为了预测一个变量,我想对它做一个随机林:negatif,positif或neutral
因此,我的特征变量将是标题和内容,而我的探索变量将是例如“情绪”(negatif、positif或neutral)。 问题是我只有字符列。我不能把一些编码作为一个热编码,因为所有的原始数据都是不同的,所以会有很多不同的编码,因为有行
我不知道如何继续。。。我可以自己为训练集手动指定探索变量吗?如果你有一些迹象,以便我继续我的项目,非常感谢
df = pd.DataFrame(columns=["title", "content"], data=[["The Rise and Fall of Heidelberg Street","McDougall-Hunt a small neighborhood of single-..."]])
df.head()
title content
The Rise and Fall of Heidelberg Street McDougall-Hunt a small neighborhood of single-...
如果您想创建基线,我建议您使用TF-IDF
TfidfTransformer
来对文本进行矢量化表示TF-IDF基本上是一种统计度量,用于评估单词与文档集合中文档的相关性
您可以简单地连接标题和内容,然后通过以下管道传递:
我建议您阅读这些功能提取文档,因为它们将帮助您了解它们是如何工作的
可以使用以下命令将它们转换为伪变量
相关问题 更多 >
编程相关推荐