如何在Python中加载大型时间序列文件进行分析？

0 投票

1 回答

34 浏览

提问于 2025-04-12 09:50

我有一些.gz格式的文件，这些文件里包含了一些时间序列的数据。自然，我想对这些数据进行一些时间序列分析。

我试过这样做：

import gzip
f=gzip.open('data.csv.gz','r')
file_content=f.read()
print(file_content)

但是它加载了20分钟，我最后手动停止了。

我的问题是，我应该怎么读取这些数据呢？我有一些想法，比如使用Dask、Spark，或者我应该直接逐行读取数据呢？

我尝试在网上查找行业标准。

大数据处理数据读取时间序列分析 spark dask gz文件

1 个回答

你可以这样使用 Dask：

import dask.dataframe as dd

df = dd.read_csv('data.csv.gz', compression='gzip')

回答于 2025-04-12 由 Python大师

分享举报