南斯开pd.因子分解返回对象

foo= pd.DataFrame({ 'Col1' : ['B', 'A', 'B', 'C', 'B', 'A', 'C'], 'Val' : np.random.randn(7) }) r=pd.factorize(foo['Col1'], sort=True) foo['Col1'] = r[0]

foo= pd.DataFrame({ 'Col1' : ['B', 'A', 'B', 'C', 'B', 'A', np.nan], 'Val' : np.random.randn(7) }) r=pd.factorize(foo['Col1'], sort=True) foo['Col1'] = r[0] Col1 Val Col1 Val B 1.397748 1 1.397748 A -1.011483 0 -1.011483 B 0.679650 1 0.679650 C 0.861900 2 0.861900 B -0.430241 1 -0.430241 A 1.472984 0 1.472984 NaN 0.549857 -1 0.549857

2条回答

网友

1楼 · 编辑于 2024-05-16 10:18:53

如果您可以保证r[0]中-1的唯一原因是数据集中的np.nan，那么可以使用以下函数获得所需的映射：

def get_mapping(r):
    if -1 in r[0]:
         return zip( np.unique(r[0]), r[1].insert(0, np.nan) )
    else:
         return zip( np.unique(r[0]), r[1] )

网友

2楼 · 编辑于 2024-05-16 10:18:53

由于列中包含float+str的数据类型，因此Nans中存在pd.factorize在分配-1值（默认值）后排除丢失的值。在

另一种方法是计算序列中存在的唯一值，然后将其转换为categoricaldtype，后者还通过codes属性为Nans分配值-1。在

演示：

ser = pd.Series(foo['Col1'].unique(), dtype='category')
ser
Out[125]:
0      B
1      A
2      C
3    NaN
dtype: category
Categories (3, object): [A, B, C]

print(list(zip(ser, ser.cat.codes)))
#[('B', 1), ('A', 0), ('C', 2), (nan, -1)]

相关问题更多 >

编程相关推荐

热门问题

热门文章