在groupby数据框上获取不同的单词

2条回答

网友

1楼 · 编辑于 2024-06-09 00:19:44

我们可以使用get_dummies

df.set_index('colA').colB.str.get_dummies(sep=' ').sum(level=0).replace(0,np.nan).stack().reset_index()
Out[13]: 
  colA     level_1    0
0   US         ABC  1.0
1   US  California  2.0
2   US        City  1.0
3   US        Jose  1.0
4   US         San  1.0
5   US         ZZZ  1.0
6   UK         123  1.0
7   UK      London  2.0
8   UK  Manchester  1.0

网友

2楼 · 编辑于 2024-06-09 00:19:44

用途：

^{}并选择colB
^{}由空格到DataFrame
重塑^{}到Series
^{}表示来自index的列
^{}

df = (df.set_index('colA')['colB']
        .str.split(expand=True)
        .stack()
        .reset_index(level=1, drop=True)
        .reset_index(name='colB')
        .drop_duplicates()
       )
print (df)
  colA        colB
0   US  California
1   US        City
2   US         San
3   US        Jose
4   US         ABC
5   UK      London
6   UK         123
8   US         ZZZ
9   UK  Manchester

相关问题更多 >

编程相关推荐

热门问题

热门文章

在groupby数据框上获取不同的单词

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >