Apache Spark.read未按预期工作

!git clone https://github.com/wchill/HMP_Dataset from pyspark.sql.types import StructType, StructField, IntegerType schema = StructType([ StructField("x",IntegerType(), True), StructField("y",IntegerType(), True), StructField("z",IntegerType(), True) ]) import os file_list = os.listdir("HMP_Dataset") file_list_filtered = [file for file in file_list if "_" in file] from pyspark.sql.functions import lit for cat in file_list_filtered: data_files = os.listdir("HMP_Dataset/" + cat) for data_file in data_files: print(data_file) temp_df = spark.read.option("header","false").option( "delimeter" , " ").csv("HMP_Dataset/" + cat + "/" + data_file, schema=schema) temp_df = temp_df.withColumn("class",lit(cat)) temp_df = temp_df.withColumn("source",lit(data_file)) if df is None: df = temp_df else: df = df.union(temp_df)

1条回答

网友

1楼 · 发布于 2024-05-14 17:07:35

似乎您在指定“delimeter”的选项中有输入错误，而要传递的正确选项是“delimiter”

temp_df = spark.read.option("header","false").option( "delimeter" , " ").csv("HMP_Dataset/" + cat + "/" + data_file, schema=schema)

正确：-

temp_df = spark.read.option("header","false").option( "delimiter" , " ").csv("HMP_Dataset/" + cat + "/" + data_file, schema=schema)

您也可以选择使用“sep”作为分隔符。有关更多参考，请参阅此处或spark文档中的spark csv：- https://github.com/databricks/spark-csv

相关问题更多 >

编程相关推荐

热门问题

热门文章