如何在cas的Spark中进行数据预处理

+--------------------+---+ | text| docu_no| +--------------------+---+ |서울,NNP 시내,NNG 한,M...| 1| |최저,NNG 임금,NNG 때문,...| 2| |왜,MAG 시급,NNG 만,JX...| 3| |지금,MAG 경제,NNG 가,J...| 4| |임대료,NNG 폭리,NNG 내리...| 5| |모든,MM 문제,NNG 를,JK...| 6| |니,NP 들,XSN 이,JKS ...| 7| |실제,NNG 자영업,NNG 자,...| 8|

+--------------------+---+ | text|count |docu_no +--------------------+---+ |서울,NNP | 1| 1 |시내,NNG | 1| 1 |한,M. | 1| 1 |최저,NNG | 1| 2 |임금,NNG| 1| 2 |때문,...| 1| 2

1条回答

网友

1楼 · 发布于 2024-06-16 14:55:24

val data = List(("A", 1),("B", 2),("C", 3),("E", 4),("F", 5))

val df = sc.parallelize(data).toDF("text","doc_no")
df.show()

+  +   +
|text|doc_no|
+  +   +
|   A|     1|
|   B|     2|
|   C|     3|
|   E|     4|
|   F|     5|
+  +   +

import org.apache.spark.sql.functions._
df.groupBy($"doc_no").pivot("text").agg(count("doc_no")).show()
+   + -+ -+ -+ -+ -+
|doc_no|  A|  B|  C|  E|  F|
+   + -+ -+ -+ -+ -+
|     1|  1|  0|  0|  0|  0|
|     2|  0|  1|  0|  0|  0|
|     3|  0|  0|  1|  0|  0|
|     4|  0|  0|  0|  1|  0|
|     5|  0|  0|  0|  0|  1|
+   + -+ -+ -+ -+ -+

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在cas的Spark中进行数据预处理

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >