在Sp中调用外部matlab函数

在运行.py在

import sys from operator import add from pyspark import SparkContext import callmatlab def run(a): # print '__a' callmatlab.sparktest() if __name__ == "__main__": sc = SparkContext(appName="PythonWordCount") output = sc.parallelize(range(1,2)).map(run) print output sc.stop()

提交spark

#!/bin/bash path=/home/zzz/ProgramFiles/spark $path/bin/spark-submit \ --verbose \ --py-files $path/hpc/callmatlab.py $path/hpc/sparktest.m \ --master local[4] \ $path/hpc/run.py \ README.md

Spark似乎会询问显示为--py文件参数的所有附加的.py文件，但是Spark不识别sparktest.m。我不知道怎么继续下去。谁能给我一些建议吗？火花允许这样吗？或者其他分布式python框架有什么建议吗？在

谢谢

3条回答

网友

1楼 · 编辑于 2024-05-14 13:35:07

谢谢你回答我的问题。我用不同的方法来解决这个问题。我上传了matlab需要调用的文件和数据，并加载到了节点文件系统的一个路径上。python只需添加路径并使用matlab.引擎模块。所以我的调用Matlab.py变成

import matlab.engine as eng
import numpy as np
import os
eng = eng.start_matlab()

def sparktest():
    print "                       -"
    eng.addpath(os.path.join(os.getenv("HOME"), 'zzz/hpc/'),nargout=0)
    data = eng.sparktest([12, 1, 2])
    print data

网友

2楼 · 编辑于 2024-05-14 13:35:07

首先，我不认为有任何理由放弃sparktest.m。其次，推荐的方法是将它们放入.zip文件中。根据文档：

For Python, you can use the py-files argument of spark-submit to add .py, .zip or .egg files to be distributed with your application. If you depend on multiple Python files we recommend packaging them into a .zip or .egg.

最后，请记住，您的函数将在远程m/c中的executor jvm中执行，因此Spark framework会将函数、闭包和附加文件作为作业的一部分。希望有帮助。在

网友

3楼 · 编辑于 2024-05-14 13:35:07

添加

 files

斯巴克斯特之前的选择。在

它告诉Spark将sparktest.m文件发送给所有工人。在

在运行.py在

在sparktest.py在

提交spark

相关问题更多 >

编程相关推荐

热门问题

热门文章