Pypark,循环通过读.json

2024-04-26 00:04:31 发布

您现在位置:Python中文网/ 问答频道 /正文

我是pyspark的新手,我尝试在下面的用例中使用pyspark,但不确定如何实现它,我希望S3位置的文件夹名作为我的读.json 示例:

s3 location s3://mylocation/raghu/date/Appname-1/1.json
s3://mylocation/raghu/date/Appname-2/1.json
s3://mylocation/raghu/date/Appname-3/1.json

等等

我的read json语句是

^{pr2}$

每个应用程序名下都有多个json文件, 我尝试使用python中的boto从S3位置提取应用程序名称,但无法将该应用程序名称放在“test = sqlContext.read.json("s3a://mylocation/raghu/*/App-name/)”中以从每个应用程序读取json文件。在

我想要一些东西,比如循环遍历每个应用程序名和读取文件,我还希望应用程序名在表中作为一列出现,因为我最终要根据应用程序名分区在HDFs中写入数据。在

通过在S3位置上创建staging表,我在hive中实现了类似的效果 s3://mylocation/raghu/date/Appname-1/1.json并添加了一个脚本来改变表并将分区添加为app name,这样我就可以在表中获得app name并将其用于动态分区。在

任何帮助都将不胜感激。在

提前谢谢


Tags: 文件name名称jsonapp应用程序readdate