如何使用分组数据的后继行的值来决定当前行的值

analysis = sqlContext.createDataFrame( [ ('customer1', 'code1', 'date', 'order', 1.7, 0, 1), ('customer1', 'code2', 'date', 'offer', 1.5, 0, 2), ('customer1', 'code2', 'date', 'offer', 2.0, 0, 2), ('customer2', 'code1', 'date', 'offer', 1.2, 0,4), ('customer2', 'code1', 'date', 'order', 1.1, 0,4), ('customer2', 'code1', 'date', 'order', 2.0, 0,4), ('customer2', 'code1', 'date', 'offer', 1.2, 0,4) ], ('customer', 'code', 'order_date', 'type', 'price', 'final_offer', 'counter') )

w = \ Window.partitionBy('customer','code').orderBy('orderoffer_date') @F.udf(returnType=IntegerType()) def logic_udf(counter, curr_date, next_dates, current_type, next_types, curr_price, next_prices) : for i in range(len(counter)): if (next_dates[i] < curr_date+30): if (next_types[i] == 'order') & (next_prices[i] < curr_price ): return 1 else: return 0 else: return 0 analysis = analysis.withColumn('won_offer', logic(analysis.counter, analysis.order_date,lead(analysis.order_date, analysis.n).over(w), analysis.type,lead(analysis.type, analysis.n).over(w), analysis.price, lead(analysis.price, analysis.n).over(w)))

desired_result = sqlCtx.createDataFrame( [ ('customer1', 'code1', 'date', 'order', 1.7, 0, 1), ('customer1', 'code2', 'date', 'offer', 1.5, 0, 2), ('customer1', 'code2', 'date', 'offer', 2.0, 0, 2), ('customer2', 'code1', 'date', 'offer', 1.2, 1, 4), ('customer2', 'code1', 'date', 'order', 1.1, 1, 4), ('customer2', 'code1', 'date', 'order', 1.0, 0, 4), ('customer2', 'code1', 'date', 'offer', 1.2, 0, 4) ], ('customer', 'code', 'order_date', 'type', 'price', 'final_offer', 'counter') )

1条回答

网友
1楼 · 发布于 2024-04-20 07:37:26

您可以使用window和sql函数来替换逻辑\ udf。因为您只使用当前行之后的第一行，所以可以将当前行之后的第一行添加到当前行
from pyspark.sql import functions as F analysis \ .withColumn('next_order_date', F.first('order_date').over(w)) \ .withColumn('next_type', F.first('type').over(w)) \ .withColumn('next_price', F.first('price').over(w)) \ .withColumn('won_offer', F.when(condition, 1).otherwise(0))

相关问题更多 >

编程相关推荐

热门问题

热门文章