我有一个2500000行的大数据集,格式如下:
其余的不是出于兴趣/不言自明
我的问题是,我想让这个DataFrame()将Auspreagung\u文本条目作为列,并为每行中的每个Gitter\u ID指定它们的编号/数量(Anzahl列)
目前我做的是:
df_result = pd.DataFrame()
for i,ids in enumerate(Gitter_ids):
auspraegungen = df["Auspraegung_Text"][df["Gitter_ID_100m_neu"]==ids ]
auspraegung_amounts= df["Anzahl"][df["Gitter_ID_100m_neu"]==ids ]
df_result.loc[i,"Cell_id"] = ids
for auspraegung,amounts in zip(auspraegungen,auspraegung_amounts):
df_result.loc[i,auspraegung] = anzahl
结果DataFrame()应如下所示:
上面的代码正在运行,但是速度非常慢。如何优化流程
这个问题中使用的数据是来自德国的人口普查数据
尝试使用pandas.pivot_table:
(含虚拟数据)
相关问题 更多 >
编程相关推荐