擅长:python、mysql、java
<p>以下是我总是从以下步骤开始:
首先删除不必要的ubuntu错误或Java端口错误</p>
<pre><code>!sudo add-apt-repository remove ppa:vikoadi/ppa
!sudo apt update
</code></pre>
<p>重新开始的第二个代码</p>
<pre><code>!pip install pyspark
</code></pre>
<p>第三个代码是来自网站的全新java和最新spark表(如果显示错误,您可以更改链接并选择任何您喜欢的链接)</p>
<pre><code>!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q https://www-us.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz
!tar xf spark-3.1.1-bin-hadoop3.2.tgz
!pip install -q findspark
</code></pre>
<p>第四个代码创建会话或配置所需的大小或内存,例如4G</p>
<pre><code>from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").getOrCreate()
spark=SparkSession.builder.appName('sol').getOrCreate()
spark.conf.set("spark.driver.memory","4g")
</code></pre>
<p>第五个代码,用于检查任何“我的数据”上的会话</p>
<pre><code>from google.colab import files
files.upload() #to upload the testing file for example mydata.csv
dataset = spark.read.csv('mydata.csv',inferSchema=True, header =True)
dataset.printSchema()
</code></pre>
<p>那我希望一切都好。如果不起作用,请留下评论</p>