擅长:python、mysql、java
<p>这里有很多方法(设置ENV vars、添加到$SPARK_HOME/conf/SPARK-defaults.conf等等),一些答案已经涵盖了这些。我想为那些特别使用Jupyter笔记本和在笔记本中创建Spark会话的用户添加一个附加的答案。以下是最适合我的解决方案(在我的情况下,我希望加载Kafka包):</p>
<pre><code>spark = SparkSession.builder.appName('my_awesome')\
.config('spark.jars.packages', 'org.apache.spark:spark-sql-kafka-0-10_2.11:2.2.0')\
.getOrCreate()
</code></pre>
<p>使用这一行代码,我不需要做任何其他事情(没有env或conf文件更改)。</p>
<p><strong>2019-10-30更新:</strong>
上面这一行代码仍然运行良好,但我想为看到这个答案的新用户指出以下几点:</p>
<ul>
<li>您需要在结尾处更改版本以匹配您的Spark版本,因此对于Spark 2.4.4,您需要:<code>org.apache.spark:spark-sql-kafka-0-10_2.11:2.4.4</code></li>
<li>这个jar <code>spark-sql-kafka-0-10_2.12</code>的最新版本对我来说即将崩溃(Mac膝上型电脑),因此如果在调用“readStream”时发生崩溃,请恢复到2.11。</li>
</ul>