在Python中有没有办法将16GB左右的SAS文件拆分为多个文件/数据帧？

CUST_ID FIELD_1 FIELD_2 FIELD_3 ... FIELD_7 1 65 786 ABC Y 2 87 785 GHI N 3 88 877 YUI Y ... 9999999 92 767 XYS Y

2条回答

网友

1楼 · 编辑于 2024-05-16 03:26:30

在进行处理之前，将迭代器标志设置为true并在循环中拆分文件

参考：https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_sas.html

或在执行输出之前在SAS中拆分文件

我认为你正在尝试的是：

CHUNK = 10
df=pd.read_sas(path,format='SAS7BDAT',chunksize = CHUNK)

for chunk in df:
  # perform compression
  # write it out of your memory onto disk to_csv('new_file',
    # mode='a', # append mode
    # header=False, # don't rewrite the header, you need to init the file with a header
    # compression='gzip') # this is more to save space on disk maybe not needed

df=pd.read_csv(new_file)

您可以尝试压缩循环内的数据，因为否则在合并时它将再次失败：

下降柱
下限数值型
范畴
稀疏列

参考：https://pythonspeed.com/articles/pandas-load-less-data/

网友

2楼 · 编辑于 2024-05-16 03:26:30

对于read_sas有一个chunksize参数，它应该允许您将大文件分解成更小的部分，以便能够读入chunksize是一次要读取的记录数

相关问题更多 >

编程相关推荐

热门问题

热门文章

在Python中有没有办法将16GB左右的SAS文件拆分为多个文件/数据帧？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >