如何在Pyspark中处理管道分隔文件中的数据中的逗号

2024-05-29 10:19:02 发布

您现在位置:Python中文网/ 问答频道 /正文

原始文件路径中存在的示例数据

member_id|member_name|member_birthdate
1|Rooney ,Shannon|16180705 
2|Alea ,Fitzpatrick|16990120 
3|Daquan ,Cooper|16681214 

csvData = spark.read.option("delimiter",delim).format("csv")\ 
    .load(raw_file_path,header='true',inferSchema='true').show()

我希望输出为pipe delmiter,但由于值中有1个逗号,因此无法获得预期的结果

结果我得到:

|           member_id|member_name|member_birthdate|
+--------------------+-----------+----------------+
|1|Rooney ,Shannon...|       null|            null|
|2|Alea ,Fitzpatri...|       null|            null|
|3|Daquan ,Cooper|...|       null|            null|

预期结果

|member_id|   member_name|member_birthdate|
|1  | Rooney ,Shannon|        16180705|
|2  | Alea ,Fitzpatri|        16990120|
|3  | Daquan ,Cooper |        16681214|

Tags: 文件name路径idtrue示例nullbirthdate

热门问题