没有项目描述

csvtoparquet的Python项目详细描述


#使用IBM云对象存储将CSV对象文件转换为Apache Parquet

这个工具是为了帮助ibm cloud上的用户将ibmcloudobjectstorage(cos)中的csv对象转换为apache parquet对象而开发的。它是使用Python3.6.6开发的,将与3.6.6之前的Python3版本一起使用。

###安装 要安装该工具,请使用以下命令运行pip

` pip install csvtoparquet `

安装该工具后,必须具有ibm cloud api密钥和ibm cos服务才能使命令行工具正常工作。它要求您插入ibm cloud api密钥和ibm cos服务。您可以从IBM云管理面板中找到API密钥:manage>;security>;platform API密钥。如果您没有ibm cos作为服务,可以在对象存储下的cloudcatalog中找到它,它有一个lite层(免费)。

如果已经有了cos服务,则需要csv对象所在的bucket的名称。现在,该工具不支持多个bucket,因此不能从一个bucket转换对象并将它们存储在另一个bucket中。但是,您可以将转换后的对象重命名为使用前缀,例如:

[对象名称]-mycsvfile.csv [重命名对象存储为拼花]-new/prefix/mycsvfile.parquet

文件扩展名.parquet将自动添加到新对象名中。

###用法

使用以下必需标志在命令行上运行csvtoparquet

` csvtoparquet -a <IBM_CLOUD_API_KEY> -e <IBM_CLOUD_COS_ENDPOINT> -b <IBM_COS_BUCKET> `

  • -a-api key-ibm云api key
  • -e–端点-cos bucket端点
  • -b–存储csv对象的bucket-cos bucket名称

使用标志后,您可以将以下标志附加到命令:

  • -l–list-列出bucket中的所有对象
  • -c-csv-列出bucket中的所有csv对象
  • -cn-csv名称-仅列出存储桶中csv对象的名称
  • -f–file-要转换的csv对象的名称-与-n
  • 一起使用
  • -n–name-新对象的名称new可以包含前缀-与-f
  • 一起使用

####转换对象

#####转换一个对象

输入:

` csvtoparquet -a <IBM_CLOUD_API_KEY> -e <IBM_CLOUD_COS_ENDPOINT> -b <IBM_COS_BUCKET> \ -f csvfile.csv -n csvfile `

输出:

` Now Converting: csvfile.csv --> csvfile.parquet `

#####转换多个对象

输入:

` csvtoparquet -a <IBM_CLOUD_API_KEY> -e <IBM_CLOUD_COS_ENDPOINT> -b <IBM_COS_BUCKET> \ -f csvfile.csv anothercsvfile.csv -n csvfile new/csvfile `

输出:

` Now Converting: csvfile.csv --> csvfile.parquet Now Converting: anothercsvfile.csv --> new/csvfile.parquet `

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java Jetty:以编程方式停止会导致“1个线程无法停止”   java将位图对象转换为有问题的base64字符串   java Hibernate JPA映射具有一个值为列表的映射   java I无法将数据写入多个客户端小程序   mysql Java更新查询并非每次都有效   java佯装客户端和来自属性的名称   java DatainputStream的readUTF()方法单独读取文本数据,将报告EOF异常。为什么?   Java Date getTime函数返回负值   java为什么我的var返回不兼容问题出现错误13?   使用反射将List<SomeObject>作为参数的java How get方法   java处理与改型不一致的API响应   从BuffereImage渲染精灵时出现java问题   添加删除端点时,由于Spring MVC中的MIME类型,java资源被阻止   java在变量声明中使用double vs double   java itext和dotmatrix打印机   java如何在google cloud storage builder中设置项目ID?   ResourceConfig中的java依赖解析程序   java从NetBeans启动ImageJ插件会抛出一个JNI错误。仅从ImageJ启动它就可以了