在Python中拆分字符串并添加二进制变量

2024-03-29 09:14:15 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个有几个列的pd数据集。其中一列表示研究员的从属关系,可以有一个或多个名称,用逗号分隔。在

我需要拆分它,并为每个单独的值(附属机构)创建二进制变量。附上了一个原始表的例子和我需要得到的输出图像

输入和输出示例

enter image description here


Tags: 数据图像名称示例机构二进制例子pd
1条回答
网友
1楼 · 发布于 2024-03-29 09:14:15

您可以使用以下代码片段来解决您的任务:

initial_df = pd.DataFrame({'ID': [1, 2],
                           'Affiliation': ['University 1, University 2, University 3', 'University 3, University 4']}) # here should be your initial DataFrame
processed_df = (pd.get_dummies(initial_df.Affilation.apply(lambda x: x.split(', '))
                                                    .apply(pd.Series)
                                                    .stack()).sum(level=0)
                                                             .assign(ID=initial_df['ID']))

相关问题 更多 >