将字符列编码为序号，但保留sam中的数字列

2条回答

网友

1楼 · 编辑于 2024-06-12 13:05:06

使用^{}

enc = sklearn.preprocessing.LabelEncoder()

mask = df.dtypes.eq(np.object)
df.loc[:, mask] = df.loc[:, mask].astype(str).apply(enc.fit_transform)

为了能够^{}，您可以创建一个defaultdict的LabelEncoders。key是您的选择。我建议使用列名：直观和简单

from collections import defaultdict
enc = defaultdict(sklearn.preprocessing.LabelEncoder)

mask = df.dtypes.eq(np.object)
df.loc[:, mask] = df.loc[:, mask].astype(str).apply(lambda s: enc[s.name].fit_transform(s))

    Status  viral
0   1       1
1   0       0

到^{}

df.loc[:, mask].apply(lambda s: enc[s.name].inverse_transform(s))

    Status      viral
0   positive    pos
1   NaN         neg

网友

2楼 · 编辑于 2024-06-12 13:05:06

更新，当有NaN时，它会将代码cat为-1，如果需要NaN，可以使用replace转换回来

df=pd.DataFrame([test,test2])
df.dtypes
Out[152]:
Age       float64
Status     object
score     float64
viral      object
dtype: object
listc=df.columns[df.dtypes=='object']

for x in listc:
    df[x]=df[x].astype('category').cat.codes

df
Out[156]: 
    Age  Status  score  viral
0  59.0       0    5.0      1
1   NaN      -1    NaN      0

相关问题更多 >

编程相关推荐

热门问题

热门文章

将字符列编码为序号，但保留sam中的数字列

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >