我是pyspark的新手,我尝试在下面的用例中使用pyspark,但不确定如何实现它,我希望S3位置的文件夹名作为我的读.json 示例:
s3 location s3://mylocation/raghu/date/Appname-1/1.json
s3://mylocation/raghu/date/Appname-2/1.json
s3://mylocation/raghu/date/Appname-3/1.json
等等
我的read json语句是
^{pr2}$每个应用程序名下都有多个json文件,
我尝试使用python中的boto从S3位置提取应用程序名称,但无法将该应用程序名称放在“test = sqlContext.read.json("s3a://mylocation/raghu/*/App-name/)
”中以从每个应用程序读取json文件。在
我想要一些东西,比如循环遍历每个应用程序名和读取文件,我还希望应用程序名在表中作为一列出现,因为我最终要根据应用程序名分区在HDFs中写入数据。在
通过在S3位置上创建staging表,我在hive中实现了类似的效果
s3://mylocation/raghu/date/Appname-1/1.json
并添加了一个脚本来改变表并将分区添加为app name,这样我就可以在表中获得app name并将其用于动态分区。在
任何帮助都将不胜感激。在
提前谢谢
目前没有回答
相关问题 更多 >
编程相关推荐