管理大型数据集的工具

shapeshifter的Python项目详细描述


#shapeshifter python模块
shapeshifter python模块的官方存储库,它允许:
*将表格数据集从一种格式转换为另一种格式。
*查询大数据集以筛选有用的数据。
*选择要包含在结果数据集中的其他列/功能。
*将各种格式的数据集合并到单个文件中。
*g将结果数据集打包,以及读取gzip文件的能力。



基本用途如下所述,但请参阅[阅读文档]上的完整文档(https://shapeshifter.read the docs.io/en/latest/)。
shapeshifter对象表示要转换的文件。然后使用“export-filter-results”方法对其进行转换。下面是一个名为“input_file.tsv”的文件被转换为名为“output_file.h5”的hdf5文件的简单示例,同时过滤有关性别和年龄的数据:
``python
from shapeshifter import shapeshifter

my_shapeshifter=shapeshifter(“input_file.tsv”)
my_shapeshifter.export_filter结果(“output_file.h5”,filters=“sex=='m'和age>;40”)
````
请注意,要读取和导出到的文件类型不是明确声明的,而是由shapeshifter根据提供的文件扩展名推断的。如有必要,可以显式命名“input_file_type”和“output_file_type”。



如果您对贡献感兴趣,please follow the instructions [here](https://github.com/srp33/ShapeShifter/wiki).
## Currently Supported Formats
#### Input Formats:
* CSV
* TSV
* JSON
* Excel
* HDF5
* Parquet
* MsgPack
* Stata
* Pickle
* SQLite
* ARFF
* GCT
* Kallisto
* GEO

#### Output Formats:
* CSV
*tsv
*json
*excel
*hdf5
*parquet
*msgpack
*stata
*pickle
*sqlite
*arff
*gct
*rmarkdown
*jupyternotebook

预计未来版本中将包含以下格式:
*固定宽度文件(fwf)
*基因组数据共享临床xml



欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java Cassandra复制因子大于节点数   java J2EE JTA事务回滚不适用于OSE Glassfish 4.0(Build 89)   java spring安全预认证用户登录   org的java类文件。反应流。从RxJava编译示例时未找到Publisher?   java在使用dataFormat作为POJO通过Camel调用Web服务时无法设置SOAP标头   Javafx类的java静态实例   java如何防止一个部件在关闭时覆盖另一个部件的位置   sql server无法从我的java代码连接到数据库   java在JList(Swing)中显示带有的ArrayList   从Java中的CXF服务获取WSAddressing数据   使用资产文件夹进行java简单json解析(本地)   java LDAPException未绑定的无效凭据   JavaJSFspring部署到weblogic   JAVA中字符数组中的特定元素排列?   如果脚本位于不同的目录中,则ant不会使用exec标记运行Javashell脚本