如何使用pySpark比较两个CSV文件并验证是否存在

First_Name Last_Name Birthdate Gender Email_ID Mobile Smit Will 21-04-1974 M da1@gmail.com 5224521452 Bob Builder 14-03-1992 M ad4@gmail.com 2452586253

First_Name Last_Name Birthdate Gender Email_ID Mobile Bob Micheles 10-04-1982 M ya4@gmail.com 7845214525 Will Smith 21-04-1974 M da1@gmail.com 9874521452 Emma Watson 21-08-1989 F emma@gmail.com 5748214563 Emma Smit 21-08-1999 F da1@gmail.com 9874521452 bob robison 14-03-1992 M za@gmail.com 2452586253

1条回答

网友

1楼 · 发布于 2024-05-21 02:25:10

您可以尝试以下方法：

ip = spark.read.csv("input.csv")
db = spark.read.csv("database.csv")
#condition if person is same
person_exists = [((col('a.Email_id') == col('b.Email_id')) | (col('a.Mobile') == col('b.Mobile')) | (col('a.Birthdate') == col('b.Birthdate'))) ]

#people existing in db
existing_persons = 
ip.alias('a').join(db.alias('b'),person_exists,"inner").select([col('a.'+x) for x in a.columns])

#people not existing in db
non_existing = ip.subtract(existing_persons)

#add a column to indicate if same person or not
existing_persons = existing_persons.withColumn('Same_Person',lit('Yes'))
non_existing = non_existing.withColumn('Same_Person',lit('No'))

相关问题更多 >

编程相关推荐

热门问题

热门文章