遍历行并展开pandas datafram

2024-04-29 10:25:56 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个pandas数据框,它的列包含值或值列表(长度不等)。我想“扩展”行,这样列表中的每个值都变成列中的单个值。一个例子说明了这一切:

dfIn = pd.DataFrame({u'name': ['Tom', 'Jim', 'Claus'],
 u'location': ['Amsterdam', ['Berlin','Paris'], ['Antwerp','Barcelona','Pisa'] ]})

    location     name
0   Amsterdam   Tom
1   [Berlin, Paris] Jim
2   [Antwerp, Barcelona, Pisa]  Claus

我想变成:

dfOut = pd.DataFrame({u'name': ['Tom', 'Jim', 'Jim', 'Claus','Claus','Claus'],
u'location': ['Amsterdam', 'Berlin','Paris', 'Antwerp','Barcelona','Pisa']})

    location     name
0   Amsterdam   Tom
1   Berlin   Jim
2   Paris   Jim
3   Antwerp Claus
4   Barcelona   Claus
5   Pisa    Claus

我第一次尝试使用apply,但据我所知不可能返回多个序列。它似乎是个诡计。但下面的代码给了我一个空数据框。。。

def duplicator(series):
    if type(series['location']) == list:
        for location in series['location']:
            subSeries = series
            subSeries['location'] = location
            dfOut.append(subSeries)
    else:
        dfOut.append(series)

for index, row in dfIn.iterrows():
    duplicator(row)

Tags: 数据namelocationseriesparistomberlinpisa