如何从pyspark的csv格式解析元组数据？

1条回答

网友

1楼 · 发布于 2024-05-15 17:23:45

在您可以使用rdd.map()或使用DataFrames和udf()来完成此操作：

RDD

首先创建一个示例数据集：

text = """abelia,fl,nc
abelia x grandiflora,fl,nc
abelmoschus,ct,dc,fl,hi,il,ky,la,md,mi,ms,nc,sc,va,pr,vi"""

rdd = sc.parallelize(map(lambda x: (x,), text.split("\n")))
rdd.toDF(["rawText"]).show(truncate=False)
#+                            +
#|rawText                                                 |
#+                            +
#|abelia,fl,nc                                            |
#|abelia x grandiflora,fl,nc                              |
#|abelmoschus,ct,dc,fl,hi,il,ky,la,md,mi,ms,nc,sc,va,pr,vi|
#+                            +

现在使用map()两次。首先通过在,上拆分，将每个记录映射到一个列表。第二个命令将拆分的字符串映射为(x[0], x[1:])形式的元组：

^{pr2}$

您也可以在一次调用map()中完成此操作，但为了可读性，我将其分成两部分。在

数据帧

^{3}$

RDD

数据帧

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何从pyspark的csv格式解析元组数据？

RDD

数据帧

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >