管理大型数据集的工具
shapeshifter的Python项目详细描述
#shapeshifter python模块
shapeshifter python模块的官方存储库,它允许:
*将表格数据集从一种格式转换为另一种格式。
*查询大数据集以筛选有用的数据。
*选择要包含在结果数据集中的其他列/功能。
*将各种格式的数据集合并到单个文件中。
*g将结果数据集打包,以及读取gzip文件的能力。
基本用途如下所述,但请参阅[阅读文档]上的完整文档(https://shapeshifter.read the docs.io/en/latest/)。
shapeshifter对象表示要转换的文件。然后使用“export-filter-results”方法对其进行转换。下面是一个名为“input_file.tsv”的文件被转换为名为“output_file.h5”的hdf5文件的简单示例,同时过滤有关性别和年龄的数据:
``python
from shapeshifter import shapeshifter
my_shapeshifter=shapeshifter(“input_file.tsv”)
my_shapeshifter.export_filter结果(“output_file.h5”,filters=“sex=='m'和age>;40”)
````
请注意,要读取和导出到的文件类型不是明确声明的,而是由shapeshifter根据提供的文件扩展名推断的。如有必要,可以显式命名“input_file_type”和“output_file_type”。
如果您对贡献感兴趣,please follow the instructions [here](https://github.com/srp33/ShapeShifter/wiki).
## Currently Supported Formats
#### Input Formats:
* CSV
* TSV
* JSON
* Excel
* HDF5
* Parquet
* MsgPack
* Stata
* Pickle
* SQLite
* ARFF
* GCT
* Kallisto
* GEO
#### Output Formats:
* CSV
*tsv
*json
*excel
*hdf5
*parquet
*msgpack
*stata
*pickle
*sqlite
*arff
*gct
*rmarkdown
*jupyternotebook
预计未来版本中将包含以下格式:
*固定宽度文件(fwf)
*基因组数据共享临床xml
shapeshifter python模块的官方存储库,它允许:
*将表格数据集从一种格式转换为另一种格式。
*查询大数据集以筛选有用的数据。
*选择要包含在结果数据集中的其他列/功能。
*将各种格式的数据集合并到单个文件中。
*g将结果数据集打包,以及读取gzip文件的能力。
基本用途如下所述,但请参阅[阅读文档]上的完整文档(https://shapeshifter.read the docs.io/en/latest/)。
shapeshifter对象表示要转换的文件。然后使用“export-filter-results”方法对其进行转换。下面是一个名为“input_file.tsv”的文件被转换为名为“output_file.h5”的hdf5文件的简单示例,同时过滤有关性别和年龄的数据:
``python
from shapeshifter import shapeshifter
my_shapeshifter=shapeshifter(“input_file.tsv”)
my_shapeshifter.export_filter结果(“output_file.h5”,filters=“sex=='m'和age>;40”)
````
请注意,要读取和导出到的文件类型不是明确声明的,而是由shapeshifter根据提供的文件扩展名推断的。如有必要,可以显式命名“input_file_type”和“output_file_type”。
如果您对贡献感兴趣,please follow the instructions [here](https://github.com/srp33/ShapeShifter/wiki).
## Currently Supported Formats
#### Input Formats:
* CSV
* TSV
* JSON
* Excel
* HDF5
* Parquet
* MsgPack
* Stata
* Pickle
* SQLite
* ARFF
* GCT
* Kallisto
* GEO
#### Output Formats:
* CSV
*tsv
*json
*excel
*hdf5
*parquet
*msgpack
*stata
*pickle
*sqlite
*arff
*gct
*rmarkdown
*jupyternotebook
预计未来版本中将包含以下格式:
*固定宽度文件(fwf)
*基因组数据共享临床xml