将Dataframe列中的列表拆分为特定的列名

date data 2020-01-01 00:00:00 [G07, G08, G10, G16] 2020-01-01 00:00:01 [G07, G08, G16] 2020-01-01 00:00:02 [G08, G10, G16, G20, G21] 2020-01-01 00:00:03 [G16, G20, G21, G26, G27, R02] 2020-01-01 00:00:04 [G07, G08, G26, G27]

date G07 G08 G10 G16 G20 G21 G26 G27 R02 2020-01-01 00:00:00 G07 G08 G10 G16 NaN NaN NaN NaN NaN 2020-01-01 00:00:01 G07 G08 NaN G16 NaN NaN NaN NaN NaN 2020-01-01 00:00:02 NaN G08 G10 G16 G20 G21 NaN NaN NaN 2020-01-01 00:00:03 NaN NaN NaN G16 G20 G21 G26 G27 R02 2020-01-01 00:00:04 G07 G08 NaN NaN NaN NaN G26 G27 NaN

date G07 G08 G10 G16 G20 G21 G26 G27 R02 2020-01-01 00:00:00 1 1 1 1 0 0 0 0 0 2020-01-01 00:00:01 1 1 0 1 0 0 0 0 0 2020-01-01 00:00:02 0 1 1 1 1 1 0 0 0 2020-01-01 00:00:03 0 0 0 1 1 1 1 1 1 2020-01-01 00:00:04 1 1 0 0 0 0 1 1 0

In [1] pd.DataFrame(self.df['data'].to_list()) Out [1] date 1 2 3 4 5 6 2020-01-01 00:00:00 G07 G08 G10 G16 2020-01-01 00:00:01 G07 G08 G16 2020-01-01 00:00:02 G08 G10 G16 G20 G21 2020-01-01 00:00:03 G16 G20 G21 G26 G27 R02 2020-01-01 00:00:04 G07 G08 G26 G27

3条回答

网友

1楼 · 编辑于 2024-06-06 08:11:27

通过join()、strip()、get_dummies()和drop()方法尝试：

out=df.join(df['data'].astype(str).str.strip('[]').str.get_dummies(',')).drop('data',1)

out的输出：

网友

2楼 · 编辑于 2024-06-06 08:11:27

另一种方法：

x = (
    pd.DataFrame([{k: 1 for k in v} for v in df["data"]])
    .replace(np.nan, 0)
    .astype(int)
)
print(pd.concat([df["date"], x], axis=1))

印刷品：

                  date  G07  G08  G10  G16  G20  G21  G26  G27  R02
0  2020-01-01 00:00:00    1    1    1    1    0    0    0    0    0
1  2020-01-01 00:00:01    1    1    0    1    0    0    0    0    0
2  2020-01-01 00:00:02    0    1    1    1    1    1    0    0    0
3  2020-01-01 00:00:03    0    0    0    1    1    1    1    1    1
4  2020-01-01 00:00:04    1    1    0    0    0    0    1    1    0

网友

3楼 · 编辑于 2024-06-06 08:11:27

检查来自sklearn的MultiLabelBinarizer

from sklearn.preprocessing import MultiLabelBinarizer

mlb = MultiLabelBinarizer()

s = pd.DataFrame(mlb.fit_transform(df['data']),columns=mlb.classes_, index=df.index)

df = df.join(s)

相关问题更多 >

编程相关推荐

热门问题

热门文章