我有一个看起来更像下面的pandas数据框,它包含个人Id、特征和计数。这是当前的深/长格式。你知道吗
Person Id Characteristics Count
123 Apple 2
123 Banana 4
124 Pineaple 1
125 Apple 2
我想有效地转换成一个广泛的格式,并创建一个矩阵,需要输入到减少组件的算法。你知道吗
应该是下面的样子
Person Id Apple Banana Pineapple
123 2 4 0
124 0 0 1
125 2 0 0
我正在寻找一个有效的方法来做这件事。目前大约有2000+个特征,因此将有大约2000个或更多的列和大约30万个人id。你知道吗
如你所见,如果没有特征存在,我们需要用零填充它。我的方法似乎堵塞了很多记忆,我的记忆出现了错误。你知道吗
我对如何有效地实施这一点感到困惑。你知道吗
可以将^{} 与^{} 和^{} (在
pandas
0.18.0
中新增)一起使用,但旋转需要大量内存:也许更快的是:
时间安排:
相关问题 更多 >
编程相关推荐