如何使用python或Scala将复杂SQL查询转换为sparkdataframe

refereshLandingData=spark.sql( "select a.Sale_ID, a.Product_ID," "CASE " "WHEN (a.Quantity_Sold IS NULL) THEN b.Quantity_Sold " "ELSE a.Quantity_Sold " "END AS Quantity_Sold, " "CASE " "WHEN (a.Vendor_ID IS NULL) THEN b.Vendor_ID " "ELSE a.Vendor_ID " "END AS Vendor_ID, " "a.Sale_Date, a.Sale_Amount, a.Sale_Currency " "from landingData a left outer join preHoldData b on a.Sale_ID = b.Sale_ID" )

joinDf=landingData.join(preHoldData,landingData['Sale_ID']==preHoldData['Sale_ID'],'left_outer') joinDf.withColumn\ ('QuantitySold',pf.when(pf.col(landingData('Quantity_Sold')).isNull(),pf.col(preHoldData('Quantity_Sold'))) .otherwise(pf.when(pf.col(preHoldData('Quantity_Sold')).isNull())), pf.col(landingData('Quantity_Sold'))).show()

2条回答

网友

1楼 · 编辑于 2024-04-25 05:01:43

下面是一个scala解决方案：假设landingData和preHoldData是您的数据帧


 val landingDataDf = landingData.withColumnRenamed("Quantity_Sold","Quantity_Sold_ld")
 val preHoldDataDf = preHoldData.withColumnRenamed("Quantity_Sold","Quantity_Sold_phd")

 val joinDf = landingDataDf.join(preHoldDataDf, Seq("Sale_ID"))


 joinDf
 .withColumn("Quantity_Sold",
    when(col("Quantity_Sold_ld").isNull , col("Quantity_Sold_phd")).otherwise(col("Quantity_Sold_ld"))
 ). drop("Quantity_Sold_ld","Quantity_Sold_phd")

您可以对供应商id执行相同的操作

代码的问题是，在withColumn操作中无法引用其他/旧数据帧名称。它必须来自您正在操作的数据帧

网友

2楼 · 编辑于 2024-04-25 05:01:43

下面的代码将在scala&；对于python，您可以稍微调整一下

val preHoldData = spark.table("preHoldData").alias("a")
val landingData = spark.table("landingData").alias("b")

landingData.join(preHoldData,Seq("Sale_ID"),"leftouter")
.withColumn("Quantity_Sold",when(col("a.Quantity_Sold").isNull, col("b.Quantity_Sold")).otherwise(col("a.Quantity_Sold")))
.withColumn("Vendor_ID",when(col("a.Vendor_ID").isNull, col("b.Vendor_ID")).otherwise(col("a.Vendor_ID")))
.select(col("a.Sale_ID"),col("a.Product_ID"),col("Quantity_Sold"),col("Vendor_ID"),col("a.Sale_Date"),col("a.Sale_Amount"),col("a.Sale_Currency"))

相关问题更多 >

编程相关推荐

热门问题

热门文章