如何在Pyspark数据帧中concate axis=1上的ArrayType的2列?

2024-04-23 20:42:08 发布

您现在位置:Python中文网/ 问答频道 /正文

我在以下数据帧中有一个示例:

我想把latlon连接成一个列表。其中mmsi与ID相似(这是唯一的)

+---------+--------------------+--------------------+
|     mmsi|                 lat|                 lon|
+---------+--------------------+--------------------+
|255801480|[47.1018366666666...|[-5.3017783333333...|
|304182000|[44.6343033333333...|[-63.564803333333...|
|304682000|[41.1936, 41.1715...|[-8.7716, -8.7514...|
|305930000|[49.5221333333333...|[-3.6310166666666...|
|306216000|[42.8185133333333...|[-29.853155, -29....|
|477514400|[47.17205, 47.165...|[-58.6317, -58.60...|

因此,我想连接lat和lon数组,但轴=1,也就是说,我想在末尾有一个列表列表,在一个单独的列中,如:

[[47.1018366666666, -5.3017783333333], ... ]

在pyspark数据帧中这怎么可能?我试过concat,但会有回报:

[47.1018366666666, 44.6343033333333, ..., -5.3017783333333, -63.564803333333, ...]

非常感谢您的帮助


Tags: 数据id示例列表数组pysparklonlat