将Pandas单元格中的列表拆分为多列

2024-03-29 00:00:12 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个非常简单的Pandasdataframe,其中每个单元格都包含一个列表。我想将列表中的每个元素拆分为自己的列。我可以通过导出值,然后创建一个新的dataframe来实现这一点。如果我的dataframe在列表列之外有一个列,这似乎不是一个很好的方法。

import pandas as pd

df = pd.DataFrame(data=[[[8,10,12]],
                        [[7,9,11]]])

df = pd.DataFrame(data=[x[0] for x in df.values])

期望输出:

   0   1   2
0  8  10  12
1  7   9  11

根据@Psidom答案进行后续调查:

如果我有第二个专栏:

df = pd.DataFrame(data=[[[8,10,12], 'A'],
                        [[7,9,11], 'B']])

我怎么才能不松开另一列呢?

期望输出:

   0   1   2  3 
0  8  10  12  A
1  7   9  11  B

Tags: 方法inimport元素dataframepandasdf列表
2条回答

您可以使用apply()函数循环遍历序列,并将每个列表转换为Series,这会自动将列表按列方向展开为一个序列:

df[0].apply(pd.Series)

#   0    1   2
#0  8   10  12
#1  7    9  11

更新:要保留数据帧的其他列,可以将结果与要保留的列连接起来:

pd.concat([df[0].apply(pd.Series), df[1]], axis = 1)

#   0    1   2  1
#0  8   10  12  A
#1  7    9  11  B

你可以做pd.DataFrame(df[col].values.tolist())-比~500x快得多

In [820]: pd.DataFrame(df[0].values.tolist())
Out[820]:
   0   1   2
0  8  10  12
1  7   9  11

In [821]: pd.concat([pd.DataFrame(df[0].values.tolist()), df[1]], axis=1)
Out[821]:
   0   1   2  1
0  8  10  12  A
1  7   9  11  B

时间安排

中等

In [828]: df.shape
Out[828]: (20000, 2)

In [829]: %timeit pd.DataFrame(df[0].values.tolist())
100 loops, best of 3: 15 ms per loop

In [830]: %timeit df[0].apply(pd.Series)
1 loop, best of 3: 4.06 s per loop

大的

In [832]: df.shape
Out[832]: (200000, 2)

In [833]: %timeit pd.DataFrame(df[0].values.tolist())
10 loops, best of 3: 161 ms per loop

In [834]: %timeit df[0].apply(pd.Series)
1 loop, best of 3: 40.9 s per loop

相关问题 更多 >