要读取csv中带有逗号和引号的字段，其中逗号是分隔符pysp - 问答 - Python中文网

要读取csv中带有逗号和引号的字段，其中逗号是分隔符pysp

2024-05-28 20:09:53 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我在我的输入csv文件中有一个记录，是

"2017-11-01","2017-10-29","2017-11-04","4532491","","","","Natural States: "The Environmental Imagination" in Maine, Oregon, and the Nation","1000","Richard W. Judd"

当我在pyspark中读到这个csv时，字段"Natural States: "The Environmental Imagination" in Maine, Oregon, and the Nation"被分隔为单独的列。在

^{pr2}$

除了更改输入文件中的分隔符之外的任何解决方法，因为我们无法更改输入文件。在

Tags： and 文件 csv the in richard 记录 natural

2条回答

网友

1楼 · 编辑于 2024-05-28 20:09:53

您可以使用sparkContext读取文件，并使用多个字符","读取文件，然后将{}转换为{}，如下所示

rdd = sc.textFile("file.csv")

def replaceFunc(words):
    result = []
    for word in words.split("\",\""):
        result.append(word.replace("\"", ""))
    return result

rdd.map(replaceFunc).toDF().show(1, False)

您应该有以下输出

^{pr2}$

网友

2楼 · 编辑于 2024-05-28 20:09:53

这可能与sep='","'一起工作，例如：

spark.read.csv('file.csv', sep='","')

相关问题更多 >

编程相关推荐

热门问题

热门文章