使用按需高清Insight clus从Azure datafactory V2访问datalake - 问答 - Python中文网

使用按需高清Insight clus从Azure datafactory V2访问datalake

2024-05-14 07:42:20 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我正在尝试使用azuredatafactory从按需hdinsight集群执行spark作业。在

文档清楚地表明，ADF（v2）不支持按需hdinsight集群的datalake链接服务，必须将数据从复制活动复制到blob，然后执行作业。但是，对于一个datalake上的10亿个文件来说，这种解决方法似乎是一个非常昂贵的资源。有没有什么有效的方法可以从执行spark作业的python脚本访问datalake文件，或者其他直接访问这些文件的方法。在

另外，从v1开始有没有可能做类似的事情，如果是，那怎么做？”在HDInsight中使用Azure数据工厂创建按需Hadoop集群“描述访问blob存储的随需应变Hadoop集群，但我想要访问datalake的随需应变spark集群。在

p.p.s提前谢谢

Tags：文件数据方法文档 hadoop 链接作业集群

2条回答

网友

1楼 · 编辑于 2024-05-14 07:42:20

目前，我们在adfv2中不支持使用HDI Spark cluster的ADLS数据存储。我们计划在接下来的几个月里增加这一点。在那之前，你必须继续使用你在上面的帖子中提到的解决办法。很抱歉给您带来不便。在

网友

2楼 · 编辑于 2024-05-14 07:42:20

Blob存储用于按需集群将使用的脚本和配置文件。例如，在您编写并存储在附加的Blob存储中的脚本中，它们可以从ADLS写入SQLDB。在

相关问题更多 >

编程相关推荐

热门问题

热门文章