Spark Datafram中基于不同值的类别列

Qname b c d SPT 1 10 555 MTK 2 20 556 NKP 3 30 557 LKM 4 40 558 SPT 5 50 559 MTK 7 70 561 QRS 6 60 560 NKP 7 70 561 SPT 5 50 559 LKM 7 70 561 QRS 7 70 561 MTK 7 70 561 NKP 7 70 561

Category Qname b c d "aaa" SPT 1 10 555 "aaa" MTK 2 20 556 "aaa" NKP 3 30 557 "aaa" LKM 4 40 558 "bbb" SPT 5 50 559 "bbb" MTK 7 70 561 "aaa" QRS 6 60 560 "bbb" NKP 7 70 561 "ccc" SPT 5 50 559 "bbb" LKM 7 70 561 "bbb" QRS 7 70 561 "ccc" MTK 7 70 561 "ccc" NKP 7 70 561

1条回答

网友

1楼 · 发布于 2024-04-25 17:36:07

任务可以通过窗口函数“row\u number（）”完成。如果考虑到乔纳森·迈尔斯评论说，最好只用数字而不是字符：

val df = Seq(
  ("SPT", 1, 10, 555),
  ("MTK", 2, 20, 556),
  ("NKP", 3, 30, 557),
  ("LKM", 4, 40, 558),
  ("SPT", 5, 50, 559),
  ("MTK", 7, 70, 561),
  ("QRS", 6, 60, 560),
  ("NKP", 7, 70, 561),
  ("SPT", 5, 50, 559),
  ("LKM", 7, 70, 561),
  ("QRS", 7, 70, 561),
  ("MTK", 7, 70, 561),
  ("NKP", 7, 70, 561)
).toDF(
  "Qname", "b", "c", "d"
)

// action
val categoryWindow = Window.partitionBy($"Qname").orderBy("c")
val result = df.withColumn("Category", row_number().over(categoryWindow))

结果：

+    +  -+ -+ -+ -+
|Category|Qname|b  |c  |d  |
+    +  -+ -+ -+ -+
|1       |SPT  |1  |10 |555|
|1       |NKP  |3  |30 |557|
|1       |QRS  |6  |60 |560|
|1       |LKM  |4  |40 |558|
|1       |MTK  |2  |20 |556|
|2       |NKP  |7  |70 |561|
|2       |LKM  |7  |70 |561|
|2       |QRS  |7  |70 |561|
|2       |SPT  |5  |50 |559|
|2       |MTK  |7  |70 |561|
|3       |NKP  |7  |70 |561|
|3       |MTK  |7  |70 |561|
|3       |SPT  |5  |50 |559|
+    +  -+ -+ -+ -+

相关问题更多 >

编程相关推荐

热门问题

热门文章