在主python文件中导入额外的python文件,该文件在databricks的sparksubmit中使用

2024-06-01 01:59:10 发布

您现在位置:Python中文网/ 问答频道 /正文

我在azure中创建了一个数据库。我已经启动了一个工作区和一个集群。 我已经将主python文件放在databrick文件系统中。 dbfs:/FileStore/tables/read_批处理.py

这是读的_批处理.py从名为my\u util的目录导入了另一个python文件。 在中的用法)

from my_util.apps_config import crct_type_list

我已经放置了应用程序_配置.py在与主python文件读取并行的my_util目录中_批处理.py. i、 emyutil目录也存在于dbfs:/FileStore/tables中。在

当我试图在数据块中创建一个spark submit作业时,我得到了以下错误

ImportError: No module named 'my_util'

在databricks中运行spark submit作业而不将所有内容放入单个大python文件中的正确方法是什么?在


Tags: 文件py目录数据库tablesmyutil作业
1条回答
网友
1楼 · 发布于 2024-06-01 01:59:10

我压缩了依赖文件并上传了它。我已经在主python文件中导入了内容zip文件

import sys
sys.path.insert(0, jobs.zip)

在spark提交期间使用“py文件包含zip文件作业.zip“。 请参阅以下链接,该链接讨论spark submit的最佳实践。 https://developerzen.com/best-practices-writing-production-grade-pyspark-jobs-cb688ac4d20f

相关问题 更多 >