使用python pandas将一列拆分为多列

2024-05-15 06:52:01 发布

您现在位置:Python中文网/ 问答频道 /正文

我想在数据框中将一列拆分为多列。它用逗号隔开。

我想在excel中应用类似“文本到列”的函数。

分栏后我会给出自己的标题旋转栅门是我专栏的名字。我有:

(A006, R079, 00-00-04, 5 AVE-59 ST)

每行中的数据类型。最后,我希望:

A006    R079   00-00-04   5 AVE-59 ST

我将创建标题。

我最后一次尝试:

df.Turnstile.str.split().tolist()

但我只有“南”

当我检查“旋转栅门”栏的类型时,它会显示“对象”。我试图将该序列转换为字符串:

df['Turnstile'] = df[['Turnstile'].astype(str)]

但它给了我:

AttributeError: 'list' object has no attribute 'astype'

请告知。

谢谢你。


Tags: 数据文本标题dfexcel中将st逗号
3条回答

试试df.Turnstile.str.split(',')

这里有两个选项,如果您的数据是真正的csv格式,例如从Excel导出,您可以使用pandas.read_csv读取文件,它将根据列分隔符自动拆分为列。

如果数据是带逗号的字符串列,可以使用str.split重新定义列,但据我所知,需要将结果列转储为原始Python列表,然后重新格式化为dataframe:

import pandas as pd
df = pd.DataFrame([["A006, R079, 00-00-04, 5 AVE-59 ST"]])
df2 = pd.DataFrame(df[0].str.split(',').tolist())

也许另一种方法是将元组列转换为DataFrame,如下所示:

In [10]: DataFrame(df['Turnstile'].tolist())
Out[10]:
      0     1         2            3
0  A006  R079  00-00-04  5 AVE-59 ST
1  A006  R079  00-00-04  5 AVE-59 ST
2  A006  R079  00-00-04  5 AVE-59 ST
3  A006  R079  00-00-04  5 AVE-59 ST
4  A006  R079  00-00-04  5 AVE-59 ST
5  A006  R079  00-00-04  5 AVE-59 ST
6  A006  R079  00-00-04  5 AVE-59 ST
7  A006  R079  00-00-04  5 AVE-59 ST
8  A006  R079  00-00-04  5 AVE-59 ST
9  A006  R079  00-00-04  5 AVE-59 ST

如果是这样的话,下面是一个将元组列转换为DataFrame并将其添加回原始数据帧的示例:

import numpy as np
import pandas as pd
from pandas import Series, DataFrame

# create a fake dataframe, repeating the tuple given in the example
In [2]: df = DataFrame(data={'Observations': np.random.randn(10) * np.arange(10),
...:     'Turnstile': (('A006', 'R079', '00-00-04', '5 AVE-59 ST'),)*10})

In [3]: df.head()
Out[3]:
   Observations                            Turnstile
0     -0.000000  (A006, R079, 00-00-04, 5 AVE-59 ST)
1     -0.022668  (A006, R079, 00-00-04, 5 AVE-59 ST)
2     -2.380515  (A006, R079, 00-00-04, 5 AVE-59 ST)
3     -4.209983  (A006, R079, 00-00-04, 5 AVE-59 ST)
4      3.932902  (A006, R079, 00-00-04, 5 AVE-59 ST)

# all at once turn the column of tuples into a dataframe and concat that with the original df
In [4]: df = pd.concat([df,DataFrame(df['Turnstile'].tolist())], axis=1, join='outer')

In [5]: df.head()
Out[5]:
       Observations                            Turnstile     0     1         2  \
    0     -0.000000  (A006, R079, 00-00-04, 5 AVE-59 ST)  A006  R079  00-00-04
    1     -0.022668  (A006, R079, 00-00-04, 5 AVE-59 ST)  A006  R079  00-00-04
    2     -2.380515  (A006, R079, 00-00-04, 5 AVE-59 ST)  A006  R079  00-00-04
    3     -4.209983  (A006, R079, 00-00-04, 5 AVE-59 ST)  A006  R079  00-00-04
    4      3.932902  (A006, R079, 00-00-04, 5 AVE-59 ST)  A006  R079  00-00-04

         3
0  5 AVE-59 ST
1  5 AVE-59 ST
2  5 AVE-59 ST
3  5 AVE-59 ST
4  5 AVE-59 ST

# i assume you don't need this column anymore
In [6]: del df['Turnstile']

如果可以,当然可以根据需要命名新列。

相关问题 更多 >