我已经设置了一个Spark独立集群(首先是1个主集群和2个从集群),并且喜欢在中使用Pysparkling。我的理解是,我必须在主实例上安装h2o_pysparkling_2.0(我运行的是Spark 2.0.2)、requests、tablate、colorama和future(我使用的是Anaconda发行版,所以我不应该关心numpy之类的东西):
pip install h2o_pysparkling_2.0
pip install requests
pip install tabulate
pip install future
pip install colorama
但是,我不知道是否必须在slave实例上安装相同的包。我想是的,但我想知道你们中是否有人知道这方面的信息。可用的official documentation和{a2}不提供有关此问题的具体信息。在
python依赖项需要在运行Spark/sparking-Water的所有节点上可用,这意味着执行器和驱动程序都可以使用。在
这是因为这些操作是并行执行的,并且需要与驱动程序相同的依赖关系。我的建议是在统一的环境下运行Spark应用程序—也就是说,有相同的环境,所有Spark执行器和驱动程序都有依赖关系,以防止出现大量问题
相关问题 更多 >
编程相关推荐