在单元格中包含多个信息的pandas透视表

df = pd.DataFrame({ 'Country' : ['country1', 'country2', 'country3', 'country4'], 'Industry' : ['industry1:\$20 \n industry4:\$30', 'industry10:\$100', 'industry3:\$2 \n industry4:\$30 \n industry12:\$10 \n industry1:\$3', 'industry1:\$20 \n industry4:\$30' ],})

1条回答

网友

1楼 · 发布于 2024-05-16 09:45:25

您可以使用：

^{}按不带Industry的所有列
^{}by regex\s+\n\s+-\s+表示1个或多个空白
按^{}为Series重塑形状
再次使用不同的分隔符split
双^{}，先删除第一级
rename列

df = (df.set_index(['Country'])['Industry']
        .str.split('\s+\n\s+', expand=True)
        .stack()
        .str.split(r':\\\$', expand=True)
        .reset_index(level=1, drop=True)
        .reset_index()
        .rename(columns={0:'Industry', 1:'Val'})
     )   
print (df)
    Country    Industry  Val
0  country1   industry1   20
1  country1   industry4   30
2  country2  industry10  100
3  country3   industry3    2
4  country3   industry4   30
5  country3  industry12   10
6  country3   industry1    3
7  country4   industry1   20
8  country4   industry4   30

相关问题更多 >

编程相关推荐

热门问题

热门文章

在单元格中包含多个信息的pandas透视表

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >