对数据源进行编码
akagi的Python项目详细描述
赤木
- 自由软件:麻省理工学院许可证
功能
akagi使您能够从python访问各种数据源,如amazon redshift、amazon s3和google电子表格(以后会有更多)。
安装
通过PIP安装:
pip install akagi
或来源:
$ git clone https://github.com/ayemos/akagi akagi $ cd akagi $ python setup.py install
设置
要使用redshiftdatasource,需要设置环境变量akagi_unload_bucket 您喜欢用作redshift unload命令的中间存储的amazon s3存储桶。
$ export AKAGI_UNLOAD_BUCKET=xyz-unload-bucket.ap-northeast-1
要使用SpreadsheetDetaSource,您需要将环境变量google_application_credential设置为 指示您的服务帐户凭据文件。您可以从here获取凭据。
关联的客户端必须具有对工作表的读取权限。
$ export GOOGLE_APPLICATION_CREDENTIAL=$HOME/.credentials/service-1a2b.json
示例
红移数据源
fromakagi.data_sourcesimportRedshiftDataSourceds=RedshiftDataSource('select * from (select user_id, path from logs.imp limit 10000')fordinds:print(d)# iterate on result
s3数据源
fromakagi.data_sourcesimportS3DataSourceds=S3DataSource.for_prefix('image-data.ap-northeast-1','data/image_net/zebra',file_format='binary')fordinds:print(d)# iterate on result
电子表格数据源
fromakagi.data_sourcesimportLocalDataSourceds=SpreadsheetDataSource('1BxiMVs0XRA5nFMdKvBdBZjgmUUqptlbs74OgvE2upms',# sample sheet provided by Googlesheet_range='Class Data!A2:F31')fordinds:print(d)# iterate on result
本地数据源
fromakagi.data_sourcesimportLocalDataSourceds=LocalDataSource('./PATH/TO/YOUR/DATA/DIR',file_format='csv')fordinds:print(d)# iterate on result
学分
这个包是用Cookiecutter和 audreyr/cookiecutter-pypackage项目模板。