我对Python和Pandas非常陌生,我正尝试使用它对一个非常大的数据集(1000万个案例)进行统计分析,因为其他选项(SPSS和R)无法在授权的硬件上处理数据集。你知道吗
在这个分析中,我需要按行搜索一系列列(确切地说是30列)以提取单个字符串(可能有200个,不确定数据集中实际存在多少个),然后为每个字符串创建一个分类变量。你知道吗
数据是这样的
Dx1 Dx2 Dx3 etc...
001 234 456
231 001 444
245 777 001
我们需要的是
Dx1 Dx2 Dx3 Var001 Var234 Var456 Var231 etc..
001 234 456 True True True False
231 001 444 True False False True
245 777 001 True False False False
你有什么想法吗?你知道吗
你知道吗df.d类型演出
AGE int64
DISPUNIFORM int64
DRG int64
DRGVER int64
Readmit_30D int64
DXCCS1 int64
DXCCS2 int64
DXCCS3 int64
DXCCS4 int64
...on to DXCCS30
将^{} 与} 转换为原始:
max
一起使用,转换为bool
,最后^{我认为您希望将“一个热编码”数据集保留为稀疏矩阵。你知道吗
因此,请尝试以下节省内存的方法:
结果:
说明:
我使用以下技巧将所有数据收集到一列中:
PS不要将生成的稀疏DF与源DF连接起来,因为这可能会导致将其“爆炸”回正常(非稀疏)DF:
相关问题 更多 >
编程相关推荐