2024-05-13 19:26:19 发布
网友
我遇到了一个问题,我不知道如何在ML模型中使用列表作为标签。基本上,我有一个数据框架,如下所示:
我的功能集是一个数字列表,我的标签也是一个数字列表。我如何将两者联系起来?我已经使用过二进制标签,但是我不能用非二进制标签来管理它
ps:我知道我的数据缺乏预处理,出于处理速度的原因,我只加载了整个数据的一小部分
编辑-抱歉不够清晰:每个数字都是一个单词。我的功能集是文本,我的标签是标题。我试图构建一个模型,在给定文本的情况下,它会根据经过训练的模型生成一个标题
您可能想试试sklearn的MultiLabelBinarizer()。看看this post
MultiLabelBinarizer()
我想你可以试试熊猫“get_dummies”内置的OneHotEncoding
根据我的理解,您的数据如下(此处以“y”为例):
df a b y 0 1 2 1 1 4 5 2 2 7 1 3 3 4 7 1 4 6 0 3 5 7 9 2 6 8 1 1
其中y列中的每个数字表示每个类别
因此,您可以做的是:
new_y = pd.get_dummies(df['y'], drop_first=True)
It would be very helpful if you post some sample data here and what exactly you are willing to achieve.
PS:除此之外,你还必须使用分类熵作为损失计算
https://scikit-learn.org/stable/modules/multiclass.html#multilabel-classification-format您应该使用多标签方法来解决您的问题
您可能想试试sklearn的
MultiLabelBinarizer()
。看看this post我想你可以试试熊猫“get_dummies”内置的OneHotEncoding
根据我的理解,您的数据如下(此处以“y”为例):
其中y列中的每个数字表示每个类别
因此,您可以做的是:
new_y = pd.get_dummies(df['y'], drop_first=True)
It would be very helpful if you post some sample data here and what exactly you are willing to achieve.
PS:除此之外,你还必须使用分类熵作为损失计算
https://scikit-learn.org/stable/modules/multiclass.html#multilabel-classification-format您应该使用多标签方法来解决您的问题
相关问题 更多 >
编程相关推荐