如何在python的get_假人中结合sep和稀疏

2024-06-16 11:24:21 发布

您现在位置:Python中文网/ 问答频道 /正文

我的数据集很大,有超过1M条记录

其中一列具有以这种方式存储的项目列表

ID IssueCode
1  A12,B34,C87
2  B34,G87,K93,H36
3  H36,J77
4  G87,A12,A75

我总共有大约7000件物品

当我尝试获取这个列时,我得到了内存错误,以修复我需要稀疏数据的问题

我设法用一个热编码通过

df = pd.concat([df.drop('IssueCode', 1), df['IssueCode'].str.get_dummies(sep="|").astype(np.int8)], 1)

但它不接受sparse参数

所以我尝试了另一种方法来得到你的假人

df = pd.concat([df.drop('IssueCode', 1), pd.get_dummies(df['IssueCode'],prefix = 'IssueCode', sparse=True).astype(np.int8)],  axis=1)

它有sparse,这很好,但它不接受sep参数

如何同时获取sepsparse


Tags: 数据dfgetsepdroppdsparseconcat