在200 GB RAM工作站上读取14 GB csv文件时Pandas出错

1条回答

网友

1楼 · 发布于 2024-05-13 20:26:52

RAM中的数据比磁盘上的数据占用更多的空间。如果没有看到您的110homes.csv文件，就不可能知道细节，但是假设它每行包含10个浮点数，比如：0.0,1.0,2.0,...。在CSV中，每个字节取3个字节+1个字节作为分隔符。在Python中，每个字节取8个字节（在64字节机器上）作为浮点，每个Unicode字符加上2个字节（另外8个字节），再加上8个字节作为字符串长度，每个指针加上8个字节，再加上每行的字节数，等等

可以这样想：在64位机器上，指针、本机int或本机浮点的最小大小是8字节。每个字段需要多个，每行需要多个。与磁盘相比，RAM占用15倍并没有什么不寻常的。在

做一个简单的测试：获取文件前10%的行，并在python处理过程中通过top来监视它。看看它用了多少内存。它至少使用20GB吗？在

编程相关推荐

java JAXB封送字符串，具有xml值，且不转义该值
java ModelMapper转换器不工作
java像HH000412或HCANN000001这样的前缀是什么意思？
验证日期输入修复java。lang.numberformatexception错误
当表具有外键时，java Telosys代码生成失败
如何使所有派生类一起只能实例化一个实例的单例抽象基类？（爪哇）
java如何在非静态服务类中使用广播接收器
java nutch爬虫相对URL问题
使用Jboss DMR下载/保存java附件
Rest模板：无法提取响应：当我们得到xml响应时，没有找到适合响应类型的HttpMessageConverter，没有绑定到JAVA对象

相关问题更多 >

编程相关推荐

热门问题

热门文章

在200 GB RAM工作站上读取14 GB csv文件时Pandas出错

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >