对插补数据进行编码，然后解码

subject_id hour_measure urinecolor blood pressure 3 1.00 red 1.15 high 4 2.00 yellow low

1条回答

网友

1楼 · 发布于 2024-06-07 12:42:35

基本上，您需要使用scikit学习管道：

import numpy as np

from sklearn.pipeline import make_pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder

X = np.array(
    [['cat1', 'cat1'],
     ['cat2', np.nan],
     [np.nan, 'cat2']],
    dtype=object
)

encoder = make_pipeline(
    SimpleImputer(strategy="constant", fill_value="missing"),
    OneHotEncoder(sparse=False)
)
print(encoder.fit_transform(X))
print(encoder[-1].categories_)

[[1. 0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0. 1.]
 [0. 0. 1. 0. 1. 0.]]
[array(['cat1', 'cat2', 'missing'], dtype=object), array(['cat1', 'cat2', 'missing'], dtype=object)]

这里缺少的值由一些np.nan值表示。它们首先被字符串'missing'替换。然后，每个类别将成为一列。因此，“缺失”信息将由编码后的列表示。你知道吗

您可能不想从数据中删除此信息。如果需要，可以删除相应的列。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章

对插补数据进行编码，然后解码

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >