2024-03-29 07:09:31 发布
网友
我有下面的示例数据集。在
ID Date 213412 2008-10-26T06:04:00.000Z 213412 2018-10-26T05:42:00.000Z 393859 2018-10-26T09:17:00.000Z
我有两个相同的ID值。我只想保留ID 213412的两行中的一行。。。。我坐哪一排都无所谓。在
我知道如何在Pandas Python中执行上述操作,但不知道如何在PySpark中实现这一点。在
您可以使用dropDuplicates()
>>> cols = ['ID', 'Date'] >>> vals = [ ('213412', '2008-10-26T06:04:00.000Z'), ('213412', '2008-10-26T06:04:00.000Z'), ('393859 ', '2018-10-26T09:17:00.000Z'), ] # Create DataFrame >>> df = spark.createDataFrame(vals, cols) >>> df.show(3, False) + + + |ID |Date | + + + |213412 |2008-10-26T06:04:00.000Z| |213412 |2008-10-26T06:04:00.000Z| |393859 |2018-10-26T09:17:00.000Z| + + +
有关详细信息,请参阅
您可以使用dropDuplicates()
数据帧中的示例数据
使用dropDuplicates()
^{pr2}$有关详细信息,请参阅
相关问题 更多 >
编程相关推荐