Pyspark:两行在标识列中具有相同的值。。。只想保留其中一行

2024-03-29 07:09:31 发布

您现在位置:Python中文网/ 问答频道 /正文

我有下面的示例数据集。在

ID      Date
213412  2008-10-26T06:04:00.000Z
213412  2018-10-26T05:42:00.000Z
393859  2018-10-26T09:17:00.000Z

我有两个相同的ID值。我只想保留ID 213412的两行中的一行。。。。我坐哪一排都无所谓。在

我知道如何在Pandas Python中执行上述操作,但不知道如何在PySpark中实现这一点。在


Tags: 数据id示例pandasdatepyspark
1条回答
网友
1楼 · 发布于 2024-03-29 07:09:31

您可以使用dropDuplicates()

数据帧中的示例数据

>>> cols = ['ID', 'Date']

>>> vals =  [
        ('213412', '2008-10-26T06:04:00.000Z'),
        ('213412', '2008-10-26T06:04:00.000Z'),
        ('393859  ', '2018-10-26T09:17:00.000Z'),
        ]

# Create DataFrame
>>> df = spark.createDataFrame(vals, cols)
>>> df.show(3, False)

+    +            +
|ID      |Date                    |
+    +            +
|213412  |2008-10-26T06:04:00.000Z|
|213412  |2008-10-26T06:04:00.000Z|
|393859  |2018-10-26T09:17:00.000Z|
+    +            +

使用dropDuplicates()

^{pr2}$

有关详细信息,请参阅

相关问题 更多 >