用最优空间分配从单词列表中创建虚拟变量

2024-06-16 09:35:39 发布

您现在位置:Python中文网/ 问答频道 /正文

我已经有了解决方案:

dummies = pd.get_dummies(df["R"].str.findall("([A-Z][a-z]+)").explode()).sum(level = 0)

我正在处理一个非常大的数据集。我发现使用explode会使中间数据帧(在总和之前)比成品大5倍左右

我正在为RAM空间而奋斗。在内存方面有没有更有效的方法


Tags: 数据dfget空间解决方案levelrampd