使用pandas在不崩溃的情况下高效地读取大型CSV文件

2条回答

网友

1楼 · 编辑于 2024-06-07 01:12:31

在读取数据帧时，应该考虑使用^{}中的chunksize参数，因为它返回一个TextFileReader对象，然后可以传递给pd.concat来连接块。

chunksize = 100000
tfr = pd.read_csv('./movielens/ratings.csv', chunksize=chunksize, iterator=True)
df = pd.concat(tfr, ignore_index=True)

如果您只想单独处理每个块，请使用

chunksize = 20000
for chunk in pd.read_csv('./movielens/ratings.csv', 
                         chunksize=chunksize, 
                         iterator=True):
    do_something_with_chunk(chunk)

网友

2楼 · 编辑于 2024-06-07 01:12:31

尝试这样做-1）加载dask，然后2）转换为pandas

import pandas as pd
import dask.dataframe as dd
import time
t=time.clock()
df_train = dd.read_csv('../data/train.csv')
df_train=df_train.compute()
print("load train: " , time.clock()-t)

编程相关推荐

Java：数组大小的插入排序问题
javahibernate抛出com。mysql。jdbc。例外情况。jdbc4。MySQLSyntaxErrorException：查看手册，了解在“localTime”时间附近使用的正确语法
java Hibernate:org。冬眠UnUniqueObjectException:具有相同标识符值的不同对象已与会话关联
Gson无法用java解析我的json日期
JavaMaven使用JDK7为JVM5编译
java（播放2.1.3）@选择返回（字符串，字符串）对
java将画布拉伸到JFrame大小
来自JTextPane的java计算输入
java如何在使用Jenkins构建不稳定的情况下回滚Tomcat？
java是否可以获取包含类（CDI）的引用？

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用pandas在不崩溃的情况下高效地读取大型CSV文件

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >