对于混合类型的数据,Pandas的数据存储的最佳选择是什么?

2024-05-15 04:37:36 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在处理一个存储为ndjson的大型数据集,其中每一行数据都是一个json对象,我逐行读取并使用pandas json_normalise()将每个数据集展平,并将其保存在一个列表中作为一个dataframe,然后再合并这个列表。你知道吗

整个过程在一台高性能的机器上大约需要2个小时,所以我想保存结果,这样我就不必重复了,但是,我尝试过使用tou hdfs和tou parquet,但都失败了,我相信这是因为大多数列都有混合数据类型,其中可能有字符串、浮点和int,这是不可避免的混乱的数据收集系统的后果。你知道吗

在清理这些未处理的数据之前,最合适的存储方式是什么?你知道吗


Tags: 数据对象机器jsondataframepandas列表过程

热门问题