数据帧将字符串拆分为多列

*-----------------------------------------------------------------------------* | Total Visitor | *-----------------------------------------------------------------------------* | 2x Adult, 1x Adult + Audio Guide | | 2x Adult, 2x Youth, 1x Children | | 5x Adult + Audio Guide, 1x Children + Audio Guide, 1x Senior + Audio Guide | *-----------------------------------------------------------------------------*

*----------------------------------------------------------------------------------------------------------------* | Adult | Adult + Audio Guide | Youth | Children | Children + AG | Senior + AG *----------------------------------------------------------------------------------------------------------------* | 2x Adult | 1x Adult + Audio Guide | - | - | - | - | | 2x Adult | - |2x Youth | 1x Children | - | - | - | 5x Adult + Audio Guide | - | - |1x Children + Audio Guide| 1x Senior + Audio Guide | *----------------------------------------------------------------------------------------------------------------*

2条回答

网友
1楼 · 编辑于 2024-06-09 00:16:39

以下是使用pandas方法的一种方法：
dstack = df['Total Visitor'].str.split(',', expand=True).stack().str.strip().to_frame() dstack['cols'] = dstack[0].str.extract(r'\d+x\s(.*)') df_out = dstack.set_index('cols', append=True)[0].reset_index(level=1, drop=True).unstack() df_out
输出：
cols Adult Adult + Audio Guide Children Children + Audio Guide Senior + Audio Guide Youth 0 2x Adult 1x Adult + Audio Guide NaN NaN NaN NaN 1 2x Adult NaN 1x Children NaN NaN 2x Youth 2 NaN 5x Adult + Audio Guide NaN 1x Children + Audio Guide 1x Senior + Audio Guide NaN

网友
2楼 · 编辑于 2024-06-09 00:16:39

其思想是创建字典列表，其中带有x和regex-^\d+x\s+（^是字符串的开头，\d+是一个或多个整数，\s+是一个或多个空格），并传递给DataFrame构造函数：
import re L =[dict([(re.sub('^\d+x\s+',"",y),y) for y in x.split(', ')]) for x in df['Total Visitor']] df = pd.DataFrame(L).fillna('-') print (df) Adult Adult + Audio Guide Youth Children \ 0 2x Adult 1x Adult + Audio Guide - - 1 2x Adult - 2x Youth 1x Children 2 - 5x Adult + Audio Guide - - Children + Audio Guide Senior + Audio Guide 0 - - 1 - - 2 1x Children + Audio Guide 1x Senior + Audio Guide
另一个类似的想法是x从dict的键中分离列名称：
L = [dict([(y.split('x ')[1], y) for y in x.split(', ')]) for x in df['Total Visitor']] df = pd.DataFrame(L).fillna('-')

相关问题更多 >

编程相关推荐

热门问题

热门文章