我对pyspark很陌生,有人能帮我实现一个简单的函数吗。 我有下面的文字。。。在
(Cortez,Rafael A.,SJSU)
(Cortez,Rafael A.,SJSU)
(Cortez,Rafael A.,MIT)
(Kemper,Karin Erika,SJSU)
(Kemper,Karin Erika,SDSU)
我需要根据提花的相似性将它们分成相似的簇。在普通python中,我会这样写:
^{pr2}$输出:
^{3}$有人能指导我如何在pyspark中实现这一点吗?在
我对如何map
和在pyspark中执行基本操作有基本的想法,但不知道如何比较记录并动态地分组。在
谢谢
目前没有回答
相关问题 更多 >
编程相关推荐