用于转换大型数据集的命令行工具

expressionable-cli的Python项目详细描述


#expressionable cli是[expressionable]python模块(https://github.com/srp33/expressionable)的官方命令行界面。
从命令行可以很容易地利用expressionable的特性,例如:
*将表格数据集从一种格式转换为其他。
*查询大数据集以筛选出有用的数据。
*选择要包含在结果数据集中的其他列/功能。
*gzip结果数据集的选项,以及读取gzip文件的能力。
*将多个不同类型的数据文件合并到一个si中ngle文件。

r/>$expressionable--help
用法:expressionable[-h][-i文件类型][-o文件类型][-t][-f"筛选器"]
[-c列][-a][-g][-s设置索引]
输入文件输出文件


导入、筛选数据并将其转换为您选择的格式!

位置参数:
要导入、筛选和/或转换的输入文件数据文件
输出结果的输出文件路径

可选参数:
-h,--帮助显示此帮助消息并退出
-i文件类型,--输入_文件类型文件类型要导入的文件类型。如果未指定,文件类型将由给定的文件扩展名决定。
可用的选项有:csv、tsv、json、excel、hdf5、
parquet、msgpack、stata、pickle、sqlite、arff、gct、
kallisto,geo,salmon
-o文件类型,--输出文件类型文件类型
结果导出到的文件类型。如果未指定
,则文件类型将由给定的文件扩展名决定。可用选项有:csv、tsv、
json、excel、hdf5、parquet、msgpack、stata、pickle、
sqlite、arff、gct、rmarkdown、jupyternotebook
-t、-转置转置索引和输出文件中的列
-f"filter"、--filter"filter"
使用python逻辑语法过滤数据。您的过滤器必须用引号括起来。例如,-f
"columnname1>;12.5和(columnname2=='x'或
columnname2=='y')"
-c列,--columns columns
要包含在
输出文件中的其他列名列表。列名必须用逗号
分隔,并且不能有空格。例如:-c
columnname1、columnname2、columnname3
-a,--all_columns包括输出文件中的所有列。重写
"-column s"标志
-g,--gzip gzip输出文件
-s set_index,--set_index set_index
将给定列设置为索引列,
(如果适用)。

```
在使用"expressionable"命令时,只有两个参数是必需的:要读取的文件的路径,
和要生成的文件的路径。例如,如果您有一个名为"input_file.xlsx"的excel文件,并且您
只想将其转换为名为"output_file.tsv"的tsv文件,则您可以在终端中输入
`expressionable input_file.xlsx output_file.tsv`来执行转换。


expressionable automatically in根据文件路径。如果由于某种原因扩展名不规则或丢失,您可以使用"--input_file_type"标志指定输入文件的
格式,后跟文件类型的名称,
,并使用"--output_file_type"标志指定输出文件的格式,后跟文件名。e type.

在转换过程中应用筛选器时使用"--filter"标志,后跟双引号中的字符串查询。
此类查询的语法使用基本的python逻辑语法,如下例所示:
`-filter"columnname1>;12.5和(columnname2=='x'或columnname2=='y')"`


应用筛选器意味着输出文件中只会出现那些筛选的列(在上面的示例中,columnname1和columnname2)
。如果希望包含其他列,可以使用"--columns"标志
,后跟逗号分隔的列名列表。如果您希望在输出中包含所有列,只需使用"--all-columns"标志即可。


sage:合并[-h][-i输入文件[输入文件…]][-o输出文件]
[-t文件类型][-g][-c在列上][-如何]




可选参数:
-h,--帮助显示此帮助消息并退出
-i输入文件[输入文件…],--输入文件输入文件[输入文件…]
将合并在一起的文件列表。文件必须具有适当的扩展名才能正确识别。
-o output_file,--output_file output_file
结果导出到的文件路径
-t file_type,--output_file_type file_type
文件类型结果导出到的位置。如果未指定
,则文件类型将由给定的文件扩展名决定。可用的选项有:csv、tsv、
json、excel、hdf5、parquet、msgpack、stata、pickle、
sqlite、arff、gct、rmarkdown、jupyternotebook
-g,--gzip gzip输出文件
-c on戋列,--on戋列
合并特定列上的文件
--如何执行合并类型。选项有左、右、
内部或外部,内部是默认行为。
````



\csv
*tsv
*json
*excel
*hdf5
*parquet
*msgpack
*stata
*pickle
*sqli
*arff
*gct
*gctx
*pdf
*starreads
*kallisto
*geo

*starreads
*starreads
*starreads
*kallisto
*geo

*tsv
*tsv
*json
*exce
*hdf5
*parquet
*msgpack
*stata
*statata
*pickl
*sqlite
*sqlite
*geo
*geo
*geo
*geo



*br
*arff
*gct
*rmarkdown
*jupyternotebook

预计未来版本中将包含以下格式:
*固定宽度文件(fwf)
*基因组数据共享临床xml



欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
如何使用运行时从JAVA运行openssl命令?   不使用线程安全类(如AtomicInteger和SynchronizedList)的java ProducerConsumer问题   匹配字符串的java模式   在java中使用泛型接口作为返回类型   java将可能具有序列化JSON值的hashmap作为节点添加到JSON字符串中   Eclipse无法从Java8流推断正确的类型   java无法了解标准JButton的大小   java我能用一个循环优化这个函数吗(在第一种方法中)?   Apache CXF中基于WebSocket的java SOAP?   java想要运行奇偶和求和三步   矩阵上随机元素的java集值   java布尔相等:0==a,操作数顺序重要吗?   java Eclipse不会退出我的插件   java如何在spring的SOAP拦截器中获取HttpServletRequest和HttpServletResponse