我的数据集很大,有超过1M条记录
其中一列具有以这种方式存储的项目列表
ID IssueCode
1 A12,B34,C87
2 B34,G87,K93,H36
3 H36,J77
4 G87,A12,A75
我总共有大约7000件物品
当我尝试获取这个列时,我得到了内存错误,以修复我需要稀疏数据的问题
我设法用一个热编码通过
df = pd.concat([df.drop('IssueCode', 1), df['IssueCode'].str.get_dummies(sep="|").astype(np.int8)], 1)
但它不接受sparse
参数
所以我尝试了另一种方法来得到你的假人
df = pd.concat([df.drop('IssueCode', 1), pd.get_dummies(df['IssueCode'],prefix = 'IssueCode', sparse=True).astype(np.int8)], axis=1)
它有sparse,这很好,但它不接受sep
参数
如何同时获取sep
和sparse
目前没有回答
相关问题 更多 >
编程相关推荐