没有项目描述
csvtoparquet的Python项目详细描述
#使用IBM云对象存储将CSV对象文件转换为Apache Parquet
这个工具是为了帮助ibm cloud上的用户将ibmcloudobjectstorage(cos)中的csv对象转换为apache parquet对象而开发的。它是使用Python3.6.6开发的,将与3.6.6之前的Python3版本一起使用。
###安装 要安装该工具,请使用以下命令运行pip
` pip install csvtoparquet `
安装该工具后,必须具有ibm cloud api密钥和ibm cos服务才能使命令行工具正常工作。它要求您插入ibm cloud api密钥和ibm cos服务。您可以从IBM云管理面板中找到API密钥:manage>;security>;platform API密钥。如果您没有ibm cos作为服务,可以在对象存储下的cloudcatalog中找到它,它有一个lite层(免费)。
如果已经有了cos服务,则需要csv对象所在的bucket的名称。现在,该工具不支持多个bucket,因此不能从一个bucket转换对象并将它们存储在另一个bucket中。但是,您可以将转换后的对象重命名为使用前缀,例如:
[对象名称]-mycsvfile.csv [重命名对象存储为拼花]-new/prefix/mycsvfile.parquet
文件扩展名.parquet将自动添加到新对象名中。
###用法
使用以下必需标志在命令行上运行csvtoparquet
` csvtoparquet -a <IBM_CLOUD_API_KEY> -e <IBM_CLOUD_COS_ENDPOINT> -b <IBM_COS_BUCKET> `
- -a或-api key-ibm云api key
- -e或–端点-cos bucket端点
- -b或–存储csv对象的bucket-cos bucket名称
使用标志后,您可以将以下标志附加到命令:
- -l或–list-列出bucket中的所有对象
- -c或-csv-列出bucket中的所有csv对象
- -cn或-csv名称-仅列出存储桶中csv对象的名称
- -f或–file-要转换的csv对象的名称-与-n 一起使用
- -n或–name-新对象的名称new可以包含前缀-与-f 一起使用
####转换对象
#####转换一个对象
输入:
` csvtoparquet -a <IBM_CLOUD_API_KEY> -e <IBM_CLOUD_COS_ENDPOINT> -b <IBM_COS_BUCKET> \ -f csvfile.csv -n csvfile `
输出:
` Now Converting: csvfile.csv --> csvfile.parquet `
#####转换多个对象
输入:
` csvtoparquet -a <IBM_CLOUD_API_KEY> -e <IBM_CLOUD_COS_ENDPOINT> -b <IBM_COS_BUCKET> \ -f csvfile.csv anothercsvfile.csv -n csvfile new/csvfile `
输出:
` Now Converting: csvfile.csv --> csvfile.parquet Now Converting: anothercsvfile.csv --> new/csvfile.parquet `