在Pandas DataFrame中连接包含“NaN”值的列值

13 投票

3 回答

21501 浏览

提问于 2025-04-18 05:14

我正在尝试把Pandas的DataFrame中的列连接起来，但里面有NaN值。

In [96]:df = pd.DataFrame({'col1' : ["1","1","2","2","3","3"],
                'col2'  : ["p1","p2","p1",np.nan,"p2",np.nan], 'col3' : ["A","B","C","D","E","F"]})

In [97]: df
Out[97]: 
  col1 col2 col3
0    1   p1    A
1    1   p2    B
2    2   p1    C
3    2  NaN    D
4    3   p2    E
5    3  NaN    F

In [98]: df['concatenated'] = df['col2'] +','+ df['col3']
In [99]: df
Out[99]: 
  col1 col2 col3 concatenated
0    1   p1    A         p1,A
1    1   p2    B         p2,B
2    2   p1    C         p1,C
3    2  NaN    D          NaN
4    3   p2    E         p2,E
5    3  NaN    F          NaN

在“连接后的”这一列中，我希望看到的是“D”和“F”，而不是'NaN'值，这样可以吗？

数据清洗 dataframe NaN处理列连接

3 个回答

我们可以使用 stack 这个方法，它会把 NaN（表示缺失值）去掉。然后再用 groupby.agg 和 ','.join 把字符串连接起来：

df['concatenated'] = df[['col2', 'col3']].stack().groupby(level=0).agg(','.join)

  col1 col2 col3 concatenated
0    1   p1    A         p1,A
1    1   p2    B         p2,B
2    2   p1    C         p1,C
3    2  NaN    D            D
4    3   p2    E         p2,E
5    3  NaN    F            F

回答于 2025-04-18 由 Python大师

分享举报

你可以先把数据表中的NaN（缺失值）替换成空字符串，这样可以针对整个数据表或者你想要的某一列进行操作。

In [6]: df = df.fillna('')

In [7]: df['concatenated'] = df['col2'] +','+ df['col3']

In [8]: df
Out[8]:
  col1 col2 col3 concatenated
0    1   p1    A         p1,A
1    1   p2    B         p2,B
2    2   p1    C         p1,C
3    2         D           ,D
4    3   p2    E         p2,E
5    3         F           ,F

回答于 2025-04-18 由 Python大师

分享举报

我觉得你的问题并不简单。不过，这里有一个使用numpy向量化的解决方法：

In [49]: def concat(*args):
    ...:     strs = [str(arg) for arg in args if not pd.isnull(arg)]
    ...:     return ','.join(strs) if strs else np.nan
    ...: np_concat = np.vectorize(concat)
    ...: 

In [50]: np_concat(df['col2'], df['col3'])
Out[50]: 
array(['p1,A', 'p2,B', 'p1,C', 'D', 'p2,E', 'F'], 
      dtype='|S64')

In [51]: df['concatenated'] = np_concat(df['col2'], df['col3'])

In [52]: df
Out[52]: 
  col1 col2 col3 concatenated
0    1   p1    A         p1,A
1    1   p2    B         p2,B
2    2   p1    C         p1,C
3    2  NaN    D            D
4    3   p2    E         p2,E
5    3  NaN    F            F

[6 rows x 4 columns]

回答于 2025-04-18 由 Python大师

分享举报

在Pandas DataFrame中连接包含“NaN”值的列值

3 个回答

撰写回答