使用Dask是否有些文件类型比其他文件类型快？

2024-05-16 04:13:21 发布

男 | 程序猿一只，喜欢编程写python代码。

Dask dataframe简单的操作非常慢，感觉就像这里的大型机和1974。在最后一个项目中，我试图清理Yelp数据集挑战中的文本并将其标记化。一切都要花很长时间。在一台非常现代的机器上，loc[0]可能需要2-3分钟(像df.descripe（）.compute（）这样的操作一样，我希望在本地完成，而不是在databricks或collab上。我真不明白为什么这么慢。我意识到操作是懒惰的，不必在Jupyter中执行一个单元格。这个数据集大约有5 GB以上，其中85%是文本本身。它是JSON格式的

我尝试过将JSON文件加载到dataframes和dask dataframes中。熊猫不会吃的，因为它太大了。达斯克接受了。将JSON文件转换为其他文件需要一些时间，所以我还没有这样做，但如果它有帮助的话，我会这样做的

这个站点（https://oikonang.github.io/Parsing-Reddit-Data-with-Dask/）的用户在更大的数据集（30GB）上使用了许多相同的技术（Python/dask），并且能够实现更快的计算速度。对于初学者，对于.count（）和.info（），两秒钟。由于该方法使用了Castra格式，我想这可能就是我的方法的问题所在

我期待更合理的计算时间，或者有人足够理解dask来解释我应该为这类问题做些什么

Tags：文件数据项目方法文本 json dataframe 格式

0条回答

目前没有回答

使用Dask是否有些文件类型比其他文件类型快？

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用Dask是否有些文件类型比其他文件类型快？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >