Pandas: 同时转换多个列会损坏数据，单独转换却不会？

Question

现在感觉自己有点傻，但我就是找不到一个好的办法来解决下面的问题。

我有一个数据框（dataframe），里面有三个不同的“部分”。

第一部分是13列的序列号数据，每一列都是一个单独的ASCII码。这些列的名字在列表[serialname_list]里。
第二部分是每一行都有的“核心数据”列。
第三部分是只有80%的行才有的“附加数据”列。

这个数据框大概长这样：

   sn1  sn2  ...  sn13  data1  data2   add1  add2  
0   74   79   76   66   5.0     5.0     NaN   NaN   
1   81   66   89   65   1.0     1.0     NaN   NaN   
2   82   81   78   66   2.0     2.0     79    80

我正在写一个函数，把这13个ASCII码转换成实际的ASCII字符，然后把它们合并成一个字段，并删除这些单独的列。有些“序列号”字段的数据坏掉了，里面有明显错误的浮点值，对于这些情况，我就直接删除任何包含非标准数据的行。

在转换ASCII码时，我遇到了问题。之前我用的是：

df[serialname_list] = df[serialname_list].apply(lambda x: x.map(chr))

但是，我注意到当这行代码运行时，数据框删除了所有的“附加数据”列，以及任何“附加数据”是NaN的行。

尝试对[serialname_list]中定义的字段使用不同的聚合函数，总是会出现这个问题（比如使用apply(map)、replace等）。不过，直接引用这13列并应用转换函数是没问题的。

我到底漏掉了什么？有没有什么正确的方法可以做到这一点，而不需要逐个列出每个字段名？

def convertserial(df):
    
    def chr_convert(x):
        y = chr(x)
        return y
    
    msk = df[serialname_list].lt(1).any(axis=1) #Mask where any sn column is less than 1, real data not ASCII
    idx_to_drop = df.index[msk] #Create indicies based on mask
    df = df.drop(idx_to_drop) #drop based on the index
    df = df.reset_index(drop=True)
    df[serialname_list]=df[serialname_list].astype(int)
    
    df['sn1'] = df['sn1'].apply(chr_convert)
    df['sn2'] = df['sn2'].apply(chr_convert)
    df['sn3'] = df['sn3'].apply(chr_convert)
    df['sn4'] = df['sn4'].apply(chr_convert)
    df['sn5'] = df['sn5'].apply(chr_convert)
    df['sn6'] = df['sn6'].apply(chr_convert)
    df['sn7'] = df['sn7'].apply(chr_convert)
    df['sn8'] = df['sn8'].apply(chr_convert)
    df['sn9'] = df['sn9'].apply(chr_convert)
    df['sn10'] = df['sn10'].apply(chr_convert)
    df['sn11'] = df['sn11'].apply(chr_convert)
    df['sn12'] = df['sn12'].apply(chr_convert)
    df['sn13'] = df['sn13'].apply(chr_convert)
    #df[serialname_list] = df[serialname_list].apply(chr_convert)
    df.insert(0, "serial", df.apply(
        lambda x: f"{x['sn1']}{x['sn2']}{x['sn3']}{x['sn4']+'-'+x['sn5']+x['sn6']+x['sn7']+x['sn8']+'-'+x['sn9']+x['sn10']+x['sn11'] if x['sn4'] == 'A' else '-'+x['sn4']+x['sn5']+x['sn6']+x['sn7']+'-'+x['sn8']+x['sn9']+x['sn10']}",
        axis=1
        ))
    
    df.insert(1,"position",  df.apply(
        lambda x: f"{x['sn12']+x['sn13'] if x['sn4'] == 'A' else x['sn11']+x['sn12']}",
        axis=1
        ))
    
    df.drop(columns=serialname_list[:],inplace=True)
    
    return df

数据处理数据清洗聚合函数数据转换 ascii编码数据框数据合并 NaN处理

Pandas: 同时转换多个列会损坏数据，单独转换却不会？

2 个回答

撰写回答