在pysp中创建嵌套列表/词典

2024-06-16 09:36:39 发布

您现在位置:Python中文网/ 问答频道 /正文

我对pyspark很陌生,有人能帮我实现一个简单的函数吗。 我有下面的文字。。。在

(Cortez,Rafael A.,SJSU)
(Cortez,Rafael A.,SJSU)
(Cortez,Rafael A.,MIT)
(Kemper,Karin Erika,SJSU)
(Kemper,Karin Erika,SDSU)

我需要根据提花的相似性将它们分成相似的簇。在普通python中,我会这样写:

^{pr2}$

输出:

^{3}$

有人能指导我如何在pyspark中实现这一点吗?在

我对如何map和在pyspark中执行基本操作有基本的想法,但不知道如何比较记录并动态地分组。在

谢谢


Tags: 函数mit相似性pyspark文字我会rafaelpr2