Spark Standalone clus中的Sparking Water(PySarkling)

2024-05-23 15:18:31 发布

您现在位置:Python中文网/ 问答频道 /正文

我已经设置了一个Spark独立集群(首先是1个主集群和2个从集群),并且喜欢在中使用Pysparkling。我的理解是,我必须在主实例上安装h2o_pysparkling_2.0(我运行的是Spark 2.0.2)、requests、tablate、colorama和future(我使用的是Anaconda发行版,所以我不应该关心numpy之类的东西):

pip install h2o_pysparkling_2.0
pip install requests 
pip install tabulate
pip install future
pip install colorama

但是,我不知道是否必须在slave实例上安装相同的包。我想是的,但我想知道你们中是否有人知道这方面的信息。可用的official documentation和{a2}不提供有关此问题的具体信息。在


Tags: installpip实例信息集群futureanacondarequests
1条回答
网友
1楼 · 发布于 2024-05-23 15:18:31

python依赖项需要在运行Spark/sparking-Water的所有节点上可用,这意味着执行器和驱动程序都可以使用。在

这是因为这些操作是并行执行的,并且需要与驱动程序相同的依赖关系。我的建议是在统一的环境下运行Spark应用程序—也就是说,有相同的环境,所有Spark执行器和驱动程序都有依赖关系,以防止出现大量问题

相关问题 更多 >