如何在azuredatabricks笔记本中调试长时间运行的python命令?

2024-05-23 14:25:40 发布

您现在位置:Python中文网/ 问答频道 /正文

我遵循这个教程:https://docs.microsoft.com/en-us/academic-services/graph/tutorial-azure-databricks-hindex

我已经获得了对微软学术图形数据集的访问权,并希望针对它发布一些基本的pySpark代码,完全按照教程。你知道吗

例如,此代码:

# Get affiliations
Affiliations = MAG.getDataframe('Affiliations')
Affiliations = Affiliations.select(Affiliations.AffiliationId, Affiliations.DisplayName)
Affiliations.show(3)

当我用“Shift+Enter”运行代码时,它会进入“Running command”的状态,而且似乎永远不会完成,即使半小时之后。我已经插入了这个屏幕截图,并附在我的帖子。你知道吗

我已经分别运行了这些命令,最后一个(Affiliations.show(3))导致了缓慢。你知道吗

例如,当我单独运行命令(Affiliations = MAG.getDataframe('Affiliations'))时,实际上会得到一个结果:

AffiliationId:long
Rank:integer
NormalizedName:string
DisplayName:string
GridId:string
OfficialPage:string
WikiPage:string
PaperCount:long
CitationCount:long
Latitude:float
Longitude:float
CreatedDate:date

问题:我如何调试这个来找出是什么导致了慢度?你知道吗

enter image description here


Tags: 代码https命令docsstringshow教程float
1条回答
网友
1楼 · 发布于 2024-05-23 14:25:40

在笔记本环境中调试分布式应用程序仍然是一项挑战。尽管web UI具有必要的信息,但web UI与开发环境之间仍存在差距:通常很难在web UI中找到与您正在研究的代码相关的信息;而且也没有简单的方法来查找历史运行时信息。你知道吗

enter image description here

了解如何使用Databricks Spark UI进行调试:

Spark UI包含大量可用于调试Spark作业的信息。这里有很多很棒的可视化效果,我们在这里有一篇关于这些特性的博客文章。你知道吗

enter image description here

有关详细信息,请单击Jobx View(Stages):

enter image description here

参考:Tips to Debug Apache Spark UI with Databricks

希望这有帮助。你知道吗

相关问题 更多 >