Pypark，循环通过读.json

2024-04-26 00:04:31 发布

男 | 程序猿一只，喜欢编程写python代码。

我是pyspark的新手，我尝试在下面的用例中使用pyspark，但不确定如何实现它，我希望S3位置的文件夹名作为我的读.json 示例：

s3 location s3://mylocation/raghu/date/Appname-1/1.json
s3://mylocation/raghu/date/Appname-2/1.json
s3://mylocation/raghu/date/Appname-3/1.json

等等

我的read json语句是

^{pr2}$

每个应用程序名下都有多个json文件，我尝试使用python中的boto从S3位置提取应用程序名称，但无法将该应用程序名称放在“test = sqlContext.read.json("s3a://mylocation/raghu/*/App-name/)”中以从每个应用程序读取json文件。在

我想要一些东西，比如循环遍历每个应用程序名和读取文件，我还希望应用程序名在表中作为一列出现，因为我最终要根据应用程序名分区在HDFs中写入数据。在

通过在S3位置上创建staging表，我在hive中实现了类似的效果 s3://mylocation/raghu/date/Appname-1/1.json并添加了一个脚本来改变表并将分区添加为app name，这样我就可以在表中获得app name并将其用于动态分区。在

任何帮助都将不胜感激。在

提前谢谢

Tags：文件 name 名称 json app 应用程序 read date

0条回答

目前没有回答

Pypark，循环通过读.json

相关问题更多 >

编程相关推荐

热门问题

热门文章

Pypark，循环通过读.json

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >