如何解决Get-Tu虚拟内存错误

df = pd.concat([df.drop('IssueCode', 1), pd.get_dummies(df['IssueCode'],prefix = 'IssueCode_').astype(np.int8)], axis=1) df = pd.concat([df.drop('SolutionCode', 1), pd.get_dummies(df['SolutionCode'],prefix = 'SolutionCode_').astype(np.int8)], axis=1) df = pd.concat([df.drop('Col1', 1), pd.get_dummies(df['Col1'],prefix = 'Col1_').astype(np.int8)], axis=1) df = pd.concat([df.drop('Col2', 1), pd.get_dummies(df['Col2'],prefix = 'Col2_').astype(np.int8)], axis=1) df = pd.concat([df.drop('Col3', 1), pd.get_dummies(df['Col3'],prefix = 'Col3_').astype(np.int8)], axis=1)

1条回答

网友

1楼 · 发布于 2024-06-16 11:19:32

您可能要做的第一件事是为数据帧列指定适当的数据类型，以减少加载的数据帧的内存使用（参见https://www.dataquest.io/blog/pandas-big-data/）。在

对于一个热编码，内存问题的一个直接解决方案是使用稀疏数据类型而不是常规数据类型（有关更多详细信息，请参见doc）。这可以通过以下方式实现：

df = pd.get_dummies(df, columns=["IssueCode", "SolutionCode", "Col1", "Col2", "Col3"], 
                    sparse=True, axis=1)

不过，我不确定pandas'稀疏表示是否与sklearn一起工作。如果不起作用，可以尝试使用sklearn的OneHotEncoder，默认情况下它也提供稀疏表示。在

还有其他分类特征的编码技术可以减少维数（以及内存使用），但需要更多的工作，例如将分类特征的值合并到更大的组中。在

相关问题更多 >

编程相关推荐

热门问题

热门文章