进气镶木地板插件
intake-parquet的Python项目详细描述
#进气镶木地板
[![生成状态](https://travis-ci.org/ContinuumIO/intake-parquet.svg?branch=master)](https://travis-ci.org/ContinuumIO/intake-parquet) [![文档状态](https://readthedocs.org/projects/intake-parquet/badge/?version=latest)](http://intake-parquet.readthedocs.io/en/latest/?徽章=最新)
[进气数据加载器](https://github.com/ContinuumIO/intake/)接口到拼花地板二进制表格数据格式。
拼花在大数据生态系统中非常流行,因为它提供了 以及对数据的分块访问,具有高效的编码和压缩。这使得 这种格式特别适用于在 更大的数据集,因此它与hadoop和spark一起使用。
拼花数据可以是单个文件、文件目录或嵌套目录,其中 目录名在数据分区中是有意义的。
###功能
镶木地板插件允许:
- 高效的元数据解析,因此您知道数据类型和记录数 加载任何数据
- 分区的随机访问
- 列和索引选择,仅加载所需的数据
- 传递基于值的筛选器,即只加载包含 有效数据(注意:不过滤分区内的值)
###安装
conda安装说明如下:
` conda install -cconda-forgeintake-parquet `
###示例
请参阅examples/目录中的笔记本。