如何使用pandas对多个类别（多行）进行标签编码？

from sklearn.preprocessing import LabelEncoder labelencoder = LabelEncoder() df['Main_Category'] = labelencoder.fit_transform(df['Main_Category']) labelencoder = LabelEncoder() df['Sub_Category'] = labelencoder.fit_transform(df['Sub_Category'])

1条回答

网友

1楼 · 发布于 2024-04-25 09:48:21

是的，如您所述，labelencoder执行排序internally。如果要使编码按特定顺序进行，请使用_encode 直接。在

from sklearn.preprocessing.label import _encode

unique_main_cat, ind = np.unique(df.Main_Category, return_index=True) 

# unique_main_cat would have sorted unique values,  
# to get the original order use argmin(ind)

_encode(df['Main_Category'], 
        uniques=unique_main_cat[np.argsort(ind)], 
        encode=True)

# (array(['Cat_0', 'Cat_1', 'Cat_2'], dtype=object), array([0, 1, 1, 2]))



unique_sub_cat, ind = np.unique(df.Sub_Category, return_index=True)
_encode(df['Sub_Category'], 
        uniques=unique_sub_cat[np.argsort(ind)], 
        encode=True)

# (array(['Sub_1', 'Aub_2', 'Cub_1', 'Sub_3'], dtype=object), array([0, 1, 2, 3]))

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何使用pandas对多个类别（多行）进行标签编码？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >