在ML分类中如何处理字符串数据

2条回答

网友

1楼 · 编辑于 2024-04-25 08:50:15

要将分类数据转换为数值，可以在sklearn中尝试以下方法：

现在，对于您的问题，您可以使用LabelEncoder。但有一个陷阱。在其他sklearn模型中，您可以声明一次，然后使用它来适应，然后对多个列进行转换。在

在LabelEncoding中，您必须fit_transform在列车数据中的一列上建立模型，然后在测试数据中transform同一列。然后对下一个分类列执行相同的过程。在

您可以在一个分类列列表上进行迭代以使其更简单。考虑下面的片段：

cat_cols = ['Item_Identifier', 'Item_Fat_Content', 'Item_Type', 'Outlet_Identifier', 
         'Outlet_Size', 'Outlet_Location_Type', 'Outlet_Type', 'Item_Type_Combined']
enc = LabelEncoder()

for col in cat_cols:
    train[col] = train[col].astype('str')
    test[col] = test[col].astype('str')
    train[col] = enc.fit_transform(train[col])
    test[col] = enc.transform(test[col])

网友

2楼 · 编辑于 2024-04-25 08:50:15

您可以使用从字符串到整数的映射创建字典。可以在这里找到一个例子：enter link description here。然后你用一个热编码或者把整数输入神经网络。如果这些字符有某种意义，你也可以按每个字符来做，而不是基于单词。但这取决于任务。如果这个字符串是列的唯一标识符，那么就把它放在一边，不要把它输入到模型中。在

相关问题更多 >

编程相关推荐

热门问题

热门文章

在ML分类中如何处理字符串数据

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >