pyspark读取格式错误.gz fi

2024-04-20 02:50:30 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在读电子病历上pyspark中的一个压缩的.gz文件。但是 文件格式不正确(它是一个json文件,每行中的列数不同),并得到以下异常。有人能提供一些关于如何读取pyspark中格式错误的gz文件的指南吗?在

代码:

rdd = sc.textFile("s3n://abc/us/web-logs/2018/08/29/00/0000.gz");
df = rdd.toDF();
print df.printSchema();
df = rdd.toDF();

错误:

^{pr2}$

Tags: 文件代码jsondf格式错误指南电子