如何使用Spark（pyspark）编写拼花文件？

from pyspark import SparkContext sc = SparkContext("local", "Protob Conversion to Parquet ") # spark is an existing SparkSession df = sc.textFile("/temp/proto_temp.csv") # Displays the content of the DataFrame to stdout df.write.parquet("/output/proto.parquet")

1条回答

网友

1楼 · 发布于 2024-05-23 16:16:07

这个错误是由于SparkContext中的textFile方法返回了RDD，而我需要的是DataFrame。

SparkSession在引擎盖下有一个SQLContext。因此，在将CSV文件转换为拼花文件之前，我需要使用DataFrameReader来正确地读取它。

spark = SparkSession \
    .builder \
    .appName("Protob Conversion to Parquet") \
    .config("spark.some.config.option", "some-value") \
    .getOrCreate()

# read csv
df = spark.read.csv("/temp/proto_temp.csv")

# Displays the content of the DataFrame to stdout
df.show()

df.write.parquet("output/proto.parquet")

编程相关推荐

java SimpleCursorAdapter删除值
java结束while循环条件
java检查设备是否连接到特定网络
java组织。冬眠MappingException找不到逻辑名称为annotation getter的列
为什么java邮件中会抛出此异常？
加载SDK时发生java Eclipse错误
返回奇怪输出的Java数组
JavaXStream和对象类序列化
将枚举列表传递给namedQuery后出现java非法转换异常。Hibernate中的setParameter（）
java Android studio不允许我在字符串上使用开关？

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何使用Spark（pyspark）编写拼花文件？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >