使用按需高清Insight clus从Azure datafactory V2访问datalake

2024-05-14 07:42:20 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试使用azuredatafactory从按需hdinsight集群执行spark作业。在

文档清楚地表明,ADF(v2)不支持按需hdinsight集群的datalake链接服务,必须将数据从复制活动复制到blob,然后执行作业。但是,对于一个datalake上的10亿个文件来说,这种解决方法似乎是一个非常昂贵的资源。有没有什么有效的方法可以从执行spark作业的python脚本访问datalake文件,或者其他直接访问这些文件的方法。在

另外,从v1开始有没有可能做类似的事情,如果是,那怎么做?”在HDInsight中使用Azure数据工厂创建按需Hadoop集群“描述访问blob存储的随需应变Hadoop集群,但我想要访问datalake的随需应变spark集群。在

p.p.s提前谢谢


Tags: 文件数据方法文档hadoop链接作业集群
2条回答

目前,我们在adfv2中不支持使用HDI Spark cluster的ADLS数据存储。我们计划在接下来的几个月里增加这一点。在那之前,你必须继续使用你在上面的帖子中提到的解决办法。很抱歉给您带来不便。在

Blob存储用于按需集群将使用的脚本和配置文件。例如,在您编写并存储在附加的Blob存储中的脚本中,它们可以从ADLS写入SQLDB。在

相关问题 更多 >

    热门问题