因此,我有一个input.csv,类似这样:
First_Name Last_Name Birthdate Gender Email_ID Mobile
Smit Will 21-04-1974 M da1@gmail.com 5224521452
Bob Builder 14-03-1992 M ad4@gmail.com 2452586253
和Database.csv,但没有更多记录:
First_Name Last_Name Birthdate Gender Email_ID Mobile
Bob Micheles 10-04-1982 M ya4@gmail.com 7845214525
Will Smith 21-04-1974 M da1@gmail.com 9874521452
Emma Watson 21-08-1989 F emma@gmail.com 5748214563
Emma Smit 21-08-1999 F da1@gmail.com 9874521452
bob robison 14-03-1992 M za@gmail.com 2452586253
df_DataBase = spark.read.csv("DataBase.csv",inferSchema=True,header=True)
我的预期结果是:
注意:当电子邮件、电话和生日不匹配时,人是不同的
因此,使用pyspark,如果我们能够实现这一点,我将非常高兴
您可以尝试以下方法:
相关问题 更多 >
编程相关推荐