我遵循这个教程:https://docs.microsoft.com/en-us/academic-services/graph/tutorial-azure-databricks-hindex
我已经获得了对微软学术图形数据集的访问权,并希望针对它发布一些基本的pySpark代码,完全按照教程。你知道吗
例如,此代码:
# Get affiliations
Affiliations = MAG.getDataframe('Affiliations')
Affiliations = Affiliations.select(Affiliations.AffiliationId, Affiliations.DisplayName)
Affiliations.show(3)
当我用“Shift+Enter”运行代码时,它会进入“Running command”的状态,而且似乎永远不会完成,即使半小时之后。我已经插入了这个屏幕截图,并附在我的帖子。你知道吗
我已经分别运行了这些命令,最后一个(Affiliations.show(3)
)导致了缓慢。你知道吗
例如,当我单独运行命令(Affiliations = MAG.getDataframe('Affiliations')
)时,实际上会得到一个结果:
AffiliationId:long
Rank:integer
NormalizedName:string
DisplayName:string
GridId:string
OfficialPage:string
WikiPage:string
PaperCount:long
CitationCount:long
Latitude:float
Longitude:float
CreatedDate:date
问题:我如何调试这个来找出是什么导致了慢度?你知道吗
在笔记本环境中调试分布式应用程序仍然是一项挑战。尽管web UI具有必要的信息,但web UI与开发环境之间仍存在差距:通常很难在web UI中找到与您正在研究的代码相关的信息;而且也没有简单的方法来查找历史运行时信息。你知道吗
了解如何使用Databricks Spark UI进行调试:
Spark UI包含大量可用于调试Spark作业的信息。这里有很多很棒的可视化效果,我们在这里有一篇关于这些特性的博客文章。你知道吗
有关详细信息,请单击Jobx View(Stages):
参考:Tips to Debug Apache Spark UI with Databricks
希望这有帮助。你知道吗
相关问题 更多 >
编程相关推荐