通过解析列值为dataframe创建新列，并使用另一列python中的值填充新列

2条回答

网友

1楼 · 编辑于 2024-04-25 19:17:25

似乎每个单元格中都有多个值（来自您以前和当前的问题）。首先整理数据，然后继续进行分析会容易得多。尝试将每列中的每个值放入其各自的单元格中。在

df1 = pd.concat([df[col].str.split('|', expand=True).stack().reset_index(1, drop=True) for col in df.columns], axis=1)

df1的输出

^{pr2}$

然后你可以从这里开始，只选择你关心的列

cols = ['Asthma', 'ARD']
df2 = df1.reset_index().pivot(index='index',columns=0, values=1)[cols]

df2的输出

0                       Asthma   ARD
index
0                        Ph II  Ph I
1      No development reported  None

然后将这个数据帧连接到原始数据帧

pd.concat((df, df2),axis=1)

                             Disease                                   Status  \
index
0                         Asthma|ARD                               Ph II|Ph I
1      Arthritis|Inflammation|Asthma  Ph III|Approved|No development reported

                        Asthma   ARD
index
0                        Ph II  Ph I
1      No development reported  None

网友

2楼 · 编辑于 2024-04-25 19:17:25

将排除列表设为set
str.extractall是一种风格选择。str.split会更快
query去掉不包括的东西
join

dont_include = set(['No development'])

d1 = df.stack().str.extractall('([^|]+)')[0].unstack(1) \
       .reset_index(1, drop=True).query('Status not in @dont_include') \
       .set_index('Disease', append=1).Status.unstack().fillna('')

df.join(d1)

相关问题更多 >

编程相关推荐

热门问题

热门文章

通过解析列值为dataframe创建新列，并使用另一列python中的值填充新列

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >