将HDF5转换为Parquet，无需加载到内存中

1条回答

网友

1楼 · 发布于 2024-04-23 20:11:52

您可以使用pyarrow进行此操作！在

import pandas as pd
import pyarrow as pa
import pyarrow.parquet as pq


def convert_hdf5_to_parquet(h5_file, parquet_file, chunksize=100000):

    stream = pd.read_hdf(h5_file, chunksize=chunksize)

    for i, chunk in enumerate(stream):
        print("Chunk {}".format(i))

        if i == 0:
            # Infer schema and open parquet file on first chunk
            parquet_schema = pa.Table.from_pandas(df=chunk).schema
            parquet_writer = pq.ParquetWriter(parquet_file, parquet_schema, compression='snappy')

        table = pa.Table.from_pandas(chunk, schema=parquet_schema)
        parquet_writer.write_table(table)

    parquet_writer.close()

编程相关推荐

java按钮在可展开列表视图中不可单击
java类声明对象类型不明确
java使用单独的类从Get和Set方法获取值
java Spring引导集成测试不读取属性文件
java如何为函数中带注释的参数编写mockito
java在调整JFrame的大小时消除了组件之间的额外空间
Java流筛选器空指针问题
为什么java会这么做。util。可选的没有一些和没有子类？
java Android广播接收器作为传递字符串的内部静态类
Java中使用迭代器的集合类型推断？

相关问题更多 >

编程相关推荐

热门问题

热门文章

将HDF5转换为Parquet，无需加载到内存中

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >