如何在Pyspark 2.2.0中计算不包括周末的日期之间的差异

df = spark.createDataFrame([(1, "John Doe", "2020-11-30"),(2, "John Doe", "2020-11-27"),(3, "John Doe", "2020-11-29")], ("id", "name", "date")) +---+--------+----------+ | id| name| date| +---+--------+----------+ | 1|John Doe|2020-11-30| | 2|John Doe|2020-11-27| | 3|John Doe|2020-11-29| +---+--------+----------+

from pyspark.sql.functions import udf import numpy as np workdaUDF = udf(lambda z: workdays(z),IntegerType()) def workdays(): date1 = df.select(F.col('date')).collect()[1][0] date2 = df.select(F.col('date')).collect()[0][0] date_diff = np.busday_count(date1,date2) return date_diff df.withColumn("date_dif",workdaysUDF(F.col("date"))).show(truncate=False)

PicklingError: Could not serialize object: Exception: It appears that you are attempting to reference SparkContext from a broadcast variable, action, or transformation. SparkContext can only be used on the driver, not in code that it run on workers. For more information, see SPARK-5063.

1条回答

网友

1楼 · 发布于 2024-04-25 13:25:52

您不能在UDF中调用collect。只能将列传递给UDF，因此应该传递日期列和lag日期列，如下所示：

import numpy as np
import pyspark.sql.functions as F
from pyspark.sql.window import Window
from pyspark.sql.types import IntegerType

df = spark.createDataFrame([
    (1, "John Doe", "2020-11-30"),
    (2, "John Doe", "2020-11-27"),
    (3, "John Doe", "2020-11-29")],
    ("id", "name", "date")
) 

workdaysUDF = F.udf(lambda date1, date2: int(np.busday_count(date2, date1)) if (date1 is not None and date2 is not None) else None, IntegerType())
df = df.withColumn("date_dif", workdaysUDF(F.col('date'), F.lag(F.col('date')).over(Window.partitionBy('name').orderBy('id'))))
df.show()

+ -+    +     +    +
| id|    name|      date|date_dif|
+ -+    +     +    +
|  1|John Doe|2020-11-30|    null|
|  2|John Doe|2020-11-27|      -1|
|  3|John Doe|2020-11-29|       1|
+ -+    +     +    +

相关问题更多 >

编程相关推荐

热门问题

热门文章