java为什么不在spark中使用hadoop可写数据类型?
在hadoop中,我们不使用java序列化,因为它体积大且速度慢。因此,hadoop提供了可写性,与java序列化相比速度更快
在spark中,我们默认使用java序列化,如果我们不想使用java序列化,我们可以使用Kryo序列化。我的问题是,为什么我们不能(不)在spark中使用hadoop可写序列化正如我们所知,它紧凑而快速
你可以在下面搜索框中键入要查询的问题!
在hadoop中,我们不使用java序列化,因为它体积大且速度慢。因此,hadoop提供了可写性,与java序列化相比速度更快
在spark中,我们默认使用java序列化,如果我们不想使用java序列化,我们可以使用Kryo序列化。我的问题是,为什么我们不能(不)在spark中使用hadoop可写序列化正如我们所知,它紧凑而快速
# 1 楼答案
您可以通过SparkContext的newAPIHadoop reader/writer方法使用输入和输出格式(可写类型)
https://spark.apache.org/docs/current/api/java/org/apache/spark/SparkContext.html#newAPIHadoopRDD(org.apache.hadoop.conf.Configuration,%20java.lang.Class,%20java.lang.Class,%20java.lang.Class)