与HDInsight Clus比较的Databricks查询

2024-05-31 23:17:10 发布

您现在位置:Python中文网/ 问答频道 /正文

与HDInsight集群相比,我对Databricks的实现很少有疑问。你知道吗

  1. 目前,HDInsight集群中很少有python文件从/bin/运行。有没有办法将相同的python文件上传到Databricks中的/bin。你知道吗

    我正在考虑将Databricks中的/FileStore/tables/与/bin相同,并且已经上传了python 文件夹。你知道吗

    执行的文件很少,但是当有一个.sh脚本引用PATH=:PATH时,它会 没有找到脚本。你知道吗

    当我在Databricks python笔记本中运行如下命令时,
    %sh PATH=“.:$PATH”
    回声$PATH
    它给出,.:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/snap/bin

    但是我在数据库里看不到这些目录。你知道吗

    我的想法是在bash脚本[dbfs/FileStore/tables]中显式定义路径,或者是否存在 更好的方法。

  2. 在bash脚本中,如何显式地定义实际脚本在 数据框。你知道吗

    在HDInsight集群中,当它执行PATH=:PATH的bash脚本时,它指向/bin。你知道吗

    在Databricks中也有同样的方法。

  3. 有没有办法将Upload选项更改为除/FileStore/tables之外的其他目录 哪些Databricks默认为。

  4. 在Databricks中,有没有一种方法可以定义[像mount point to ADLS/BLOB]mounting/FileStore/tables/ 作为bin并将所有python文件上载到该路径。


Tags: 文件path方法脚本bashtablesbin定义
1条回答
网友
1楼 · 发布于 2024-05-31 23:17:10
  1. 您可以设置可以从集群上运行的脚本访问的环境变量。你知道吗

    • 在群集配置页面上,单击高级选项 切换。

    • 单击火花选项卡。

    • 环境变量字段中设置环境变量。

enter image description here

  1. 还可以使用Create cluster requestEdit cluster request集群API端点中的spark_env_vars字段设置环境变量。你知道吗

3和4。FileStore/jars是Databricks文件系统中的一个特殊文件夹,您可以在其中上载库。有关详细信息,请参阅“Databricks - Libraries”。你知道吗

一旦jar文件上传到FileStore/jars,就可以调用init script.中的那些库

希望这有帮助。你知道吗

相关问题 更多 >