Spark SQL-加载包含一些错误记录的csv/psv文件

sqlContext.read .format("com.databricks.spark.csv") .option("header", format("header")) .option("delimiter", format("delimeter")) .option("quote", format("quote")) .option("escape", format("escape")) .option("charset", "UTF-8") // Column types are unnecessary for our current use cases. //.option("inferschema", "true") .load(glob)

1条回答

网友

1楼 · 发布于 2024-05-16 00:58:23

在您的情况下，失败的可能不是Spark解析部分，而是默认值实际上是PERMISSIVE，这样它会将最大努力解析为格式错误的记录，然后在处理逻辑的下游引发问题。

您应该能够简单地添加选项：

.option("mode", "DROPMALFORMED")

像这样：

sqlContext.read
        .format("com.databricks.spark.csv")
        .option("header", format("header"))
        .option("delimiter", format("delimeter"))
        .option("quote", format("quote"))
        .option("escape", format("escape"))
        .option("charset", "UTF-8")
        // Column types are unnecessary for our current use cases.
        //.option("inferschema", "true")
        .option("mode", "DROPMALFORMED")
        .load(glob)

它将跳过分隔符数目不正确或与模式不匹配的行，而不是让它们在以后的代码中导致错误。

相关问题更多 >

编程相关推荐

热门问题

热门文章