我有一个提供如下数据的源系统:
Name |Hobbies
----------------------------------
"Han" |"Art;Soccer;Writing"
"Leia" |"Art;Baking;Golf;Singing"
"Luke" |"Baking;Writing"
每个爱好列表都用分号分隔。我想把它变成一个类似表格的结构,每个爱好都有一个列,并有一个标志来指示是否有人选择了这个爱好:
^{pr2}$下面是在pandas数据帧中生成示例数据的代码:
>>> import pandas as pd
>>> df = pd.DataFrame(
... [
... {'name': 'Han', 'hobbies': 'Art;Soccer;Writing'},
... {'name': 'Leia', 'hobbies': 'Art;Baking;Golf;Singing'},
... {'name': 'Luke', 'hobbies': 'Baking;Writing'},
... ]
... )
>>> df
hobbies name
0 Art;Soccer;Writing Han
1 Art;Baking;Golf;Singing Leia
2 Baking;Writing Luke
现在,我使用下面的代码将数据放入具有我想要的结构的datatrame中,但它的速度非常慢(我的实际数据集大约有150万行):
>>> df2 = pd.DataFrame(columns=['name', 'hobby'])
>>>
>>> for index, row in df.iterrows():
... for value in str(row['hobbies']).split(';'):
... d = {'name':row['name'], 'value':value}
... df2 = df2.append(d, ignore_index=True)
...
>>> df2 = df2.groupby('name')['value'].value_counts()
>>> df2 = df2.unstack(level=-1).fillna(0)
>>>
>>> df2
value Art Baking Golf Singing Soccer Writing
name
Han 1.0 0.0 0.0 0.0 1.0 1.0
Leia 1.0 1.0 1.0 1.0 0.0 0.0
Luke 0.0 1.0 0.0 0.0 0.0 1.0
有没有更有效的方法?在
为什么不直接改变数据帧呢?在
实际上,使用^{} 和{a2}应该比使用
iterrows
循环要快得多。在拆分为多个列:
按名字取消兴趣爱好:
计算数值:
第2步和第3步还有其他选择,比如使用^{} 或^{} ,正如这里讨论的:Pandas get_dummies on multiple columns,但是第一步会占用你的内存,第二步要慢得多。在
参考文献:
Pandas split column into multiple columns by comma
Pandas DataFrame stack multiple column values into single column
您可以做的不是在每次迭代中追加列,而是在运行循环后追加所有列:
我检查了这个示例dataframe需要多少时间。经过改进,我建议它快50倍左右。在
相关问题 更多 >
编程相关推荐