擅长:python、mysql、java
<p>如果您想“永久”设置路径,<a href="https://stackoverflow.com/a/31825640/3255525">Joe Young's answer</a>是很好的。如果您想以每个作业为基础设置路径,<a href="https://www.continuum.io/" rel="nofollow noreferrer">Continuum</a>(Python族)在命令行上有关于按作业设置PYTHONPATH作业的页面:</p>
<p><a href="https://www.continuum.io/blog/developer-blog/using-anaconda-pyspark-distributed-language-processing-hadoop-cluster" rel="nofollow noreferrer">https://www.continuum.io/blog/developer-blog/using-anaconda-pyspark-distributed-language-processing-hadoop-cluster</a></p>
<p>例如(为Cloudera安装编写的替换Spark位置):</p>
<p><strong>使用Hadoop集群配置spark submit命令</strong></p>
<p>要将Anaconda中的Python与PySpark一起使用,可以根据每个作业设置PySpark_Python环境变量以及spark submit命令。如果您将Anaconda包裹用于CDH,则可以运行PySpark脚本(例如,spark-作业.py)使用以下命令:</p>
<p><code>$ PYSPARK_PYTHON=/opt/cloudera/parcels/Anaconda/bin/python spark-submit spark-job.py</code></p>