我正在尝试使用azuredatafactory从按需hdinsight集群执行spark作业。在
文档清楚地表明,ADF(v2)不支持按需hdinsight集群的datalake链接服务,必须将数据从复制活动复制到blob,然后执行作业。但是,对于一个datalake上的10亿个文件来说,这种解决方法似乎是一个非常昂贵的资源。有没有什么有效的方法可以从执行spark作业的python脚本访问datalake文件,或者其他直接访问这些文件的方法。在
另外,从v1开始有没有可能做类似的事情,如果是,那怎么做?”在HDInsight中使用Azure数据工厂创建按需Hadoop集群“描述访问blob存储的随需应变Hadoop集群,但我想要访问datalake的随需应变spark集群。在
p.p.s提前谢谢
目前,我们在adfv2中不支持使用HDI Spark cluster的ADLS数据存储。我们计划在接下来的几个月里增加这一点。在那之前,你必须继续使用你在上面的帖子中提到的解决办法。很抱歉给您带来不便。在
Blob存储用于按需集群将使用的脚本和配置文件。例如,在您编写并存储在附加的Blob存储中的脚本中,它们可以从ADLS写入SQLDB。在
相关问题 更多 >
编程相关推荐