使用Dask是否有些文件类型比其他文件类型快?

2024-04-29 16:15:52 发布

您现在位置:Python中文网/ 问答频道 /正文

Dask dataframe简单的操作非常慢,感觉就像这里的大型机和1974。在最后一个项目中,我试图清理Yelp数据集挑战中的文本并将其标记化。一切都要花很长时间。在一台非常现代的机器上,loc[0]可能需要2-3分钟(像df.descripe().compute()这样的操作一样,我希望在本地完成,而不是在databricks或collab上。我真不明白为什么这么慢。我意识到操作是懒惰的,不必在Jupyter中执行一个单元格。这个数据集大约有5 GB以上,其中85%是文本本身。它是JSON格式的

我尝试过将JSON文件加载到dataframes和dask dataframes中。熊猫不会吃的,因为它太大了。达斯克接受了。将JSON文件转换为其他文件需要一些时间,所以我还没有这样做,但如果它有帮助的话,我会这样做的

这个站点(https://oikonang.github.io/Parsing-Reddit-Data-with-Dask/)的用户在更大的数据集(30GB)上使用了许多相同的技术(Python/dask),并且能够实现更快的计算速度。对于初学者,对于.count()和.info(),两秒钟。由于该方法使用了Castra格式,我想这可能就是我的方法的问题所在

我期待更合理的计算时间,或者有人足够理解dask来解释我应该为这类问题做些什么


Tags: 文件数据项目方法文本jsondataframe格式