管理大型数据集的工具

shapeshifter的Python项目详细描述


#shapeshifter python模块
shapeshifter python模块的官方存储库,它允许:
*将表格数据集从一种格式转换为另一种格式。
*查询大数据集以筛选有用的数据。
*选择要包含在结果数据集中的其他列/功能。
*将各种格式的数据集合并到单个文件中。
*g将结果数据集打包,以及读取gzip文件的能力。



基本用途如下所述,但请参阅[阅读文档]上的完整文档(https://shapeshifter.read the docs.io/en/latest/)。
shapeshifter对象表示要转换的文件。然后使用“export-filter-results”方法对其进行转换。下面是一个名为“input_file.tsv”的文件被转换为名为“output_file.h5”的hdf5文件的简单示例,同时过滤有关性别和年龄的数据:
``python
from shapeshifter import shapeshifter

my_shapeshifter=shapeshifter(“input_file.tsv”)
my_shapeshifter.export_filter结果(“output_file.h5”,filters=“sex=='m'和age>;40”)
````
请注意,要读取和导出到的文件类型不是明确声明的,而是由shapeshifter根据提供的文件扩展名推断的。如有必要,可以显式命名“input_file_type”和“output_file_type”。



如果您对贡献感兴趣,please follow the instructions [here](https://github.com/srp33/ShapeShifter/wiki).
## Currently Supported Formats
#### Input Formats:
* CSV
* TSV
* JSON
* Excel
* HDF5
* Parquet
* MsgPack
* Stata
* Pickle
* SQLite
* ARFF
* GCT
* Kallisto
* GEO

#### Output Formats:
* CSV
*tsv
*json
*excel
*hdf5
*parquet
*msgpack
*stata
*pickle
*sqlite
*arff
*gct
*rmarkdown
*jupyternotebook

预计未来版本中将包含以下格式:
*固定宽度文件(fwf)
*基因组数据共享临床xml



欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
如何使用运行时从JAVA运行openssl命令?   不使用线程安全类(如AtomicInteger和SynchronizedList)的java ProducerConsumer问题   匹配字符串的java模式   在java中使用泛型接口作为返回类型   java将可能具有序列化JSON值的hashmap作为节点添加到JSON字符串中   Eclipse无法从Java8流推断正确的类型   java无法了解标准JButton的大小   java我能用一个循环优化这个函数吗(在第一种方法中)?   Apache CXF中基于WebSocket的java SOAP?   java想要运行奇偶和求和三步   矩阵上随机元素的java集值   java布尔相等:0==a,操作数顺序重要吗?   java Eclipse不会退出我的插件   java如何在spring的SOAP拦截器中获取HttpServletRequest和HttpServletResponse