不知道类别的Dask onehotcodeding

2024-05-15 20:41:19 发布

男 | 程序猿一只，喜欢编程写python代码。

我有熊猫代码，我做一个热编码如下

from sklearn.preprocessing import MultiLabelBinarizer
...
mlb = MultiLabelBinarizer() 
df_tmp = pd.DataFrame(mlb.fit_transform(df['CatData']), columns=mlb.classes_, index=df.index)

其中我的CatData列包含类别列表

为了处理更大的数据集，我尝试使用dask。大多数功能都有一个简单的替代品。然而，一个热门的编码是棘手的，因为类别是事先不知道的。我正在考虑在整个数据集中逐行扫描该列，将列表中找到的每个类别放入字典。然后使用这些字典为一个热编码创建列名。有没有办法在达斯克更有力地做到这一点

Tags：数据代码 from import 编码 df 列表 index

1条回答

网友

1楼 · 发布于 2024-05-15 20:41:19

您可能需要df.categorize()函数

不知道类别的Dask onehotcodeding

相关问题更多 >

编程相关推荐

热门问题

热门文章

不知道类别的Dask onehotcodeding

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >