从googlecolab连接pyspark和mongodb

2024-03-29 12:59:33 发布

您现在位置:Python中文网/ 问答频道 /正文

我想连接pyspark和googlecolab。 我在云上的mongodb(mlab)中有信息。在

使用google colab,我执行以下脚本:

!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q http://www-eu.apache.org/dist/spark/spark-2.3.2/spark-2.3.2-bin-hadoop2.7.tgz
!tar xf spark-2.3.2-bin-hadoop2.7.tgz
!pip install -q findspark
!pip install pyspark

import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-2.3.2-bin-hadoop2.7"

并且,在我的本地环境中,我使用以下行执行py脚本:

^{pr2}$

但是,在云上我不能直接执行它。。。在

确切地说,最初的脚本是:

uri_in = "mongodb://{}:{}@{}.speeches".format(mongo_user, mongo_password, mongo_url)

uri_out = "mongodb://{}:{}@{}.wordcount_out".format(
    mongo_user, mongo_password, mongo_url
)

spark = (
    SparkSession.builder.appName("discursos.counter")
    .config("spark.mongodb.input.uri", uri_in)
    .config("spark.mongodb.output.uri", uri_out)
    .getOrCreate()
)

df = spark.read.format("com.mongodb.spark.sql.DefaultSource").load()

我可以用pyspark连接mongodb google colab吗?在

谢谢!在


Tags: install脚本formatbinosmongomongodbgoogle