数据分组问题，但基于“窗口”

eno|date|attendance|attendanceGroup 1|01-Jan-2010|P|1 1|02-Jan-2010|P|1 1|03-Jan-2010|A|2 1|04-Jan-2010|P|3 1|05-Jan-2010|P|3 2|01-Jan-2010|P|1 2|02-Jan-2010|P|1 2|03-Jan-2010|P|1 2|04-Jan-2010|A|2 2|05-Jan-2010|P|3

from datetime import datetime, timedelta EmployeeAttendance = Row("eno", "date", "attendance") EmpAttRowList = [EmployeeAttendance("1", datetime.now().date() - timedelta(days=100), "Y"), EmployeeAttendance("1", datetime.now().date() - timedelta(days=99), "Y"), EmployeeAttendance("1", datetime.now().date() - timedelta(days=98), "N"), EmployeeAttendance("1", datetime.now().date() - timedelta(days=97), "Y"), EmployeeAttendance("1", datetime.now().date() - timedelta(days=96), "Y"), EmployeeAttendance("1", datetime.now().date() - timedelta(days=95), "N"), EmployeeAttendance("1", datetime.now().date() - timedelta(days=94), "Y"), EmployeeAttendance("1", datetime.now().date() - timedelta(days=93), "Y"), EmployeeAttendance("2", datetime.now().date() - timedelta(days=100), "Y"), EmployeeAttendance("2", datetime.now().date() - timedelta(days=99), "Y"), EmployeeAttendance("2", datetime.now().date() - timedelta(days=98), "N"), EmployeeAttendance("2", datetime.now().date() - timedelta(days=97), "Y"), EmployeeAttendance("2", datetime.now().date() - timedelta(days=96), "Y"), EmployeeAttendance("2", datetime.now().date() - timedelta(days=95), "N"), EmployeeAttendance("2", datetime.now().date() - timedelta(days=94), "N"), EmployeeAttendance("2", datetime.now().date() - timedelta(days=93), "N"), EmployeeAttendance("2", datetime.now().date() - timedelta(days=92), "Y"), EmployeeAttendance("2", datetime.now().date() - timedelta(days=91), "Y"), EmployeeAttendance("2", datetime.now().date() - timedelta(days=90), "N"), EmployeeAttendance("3", datetime.now().date() - timedelta(days=97), "Y"), EmployeeAttendance("3", datetime.now().date() - timedelta(days=96), "Y"), EmployeeAttendance("3", datetime.now().date() - timedelta(days=95), "Y"), EmployeeAttendance("3", datetime.now().date() - timedelta(days=94), "N"), EmployeeAttendance("3", datetime.now().date() - timedelta(days=93), "N"), EmployeeAttendance("3", datetime.now().date() - timedelta(days=92), "Y"), EmployeeAttendance("3", datetime.now().date() - timedelta(days=91), "Y"), EmployeeAttendance("3", datetime.now().date() - timedelta(days=90), "Y"), EmployeeAttendance("3", datetime.now().date() - timedelta(days=89), "Y") ] df = spark.createDataFrame(EmpAttRowList, EmployeeAttendance) window = Window.partitionBy(df['eno']).orderBy("date") previousrowattendance = lag(df["attendance"]).over(window)

2条回答

网友

1楼 · 编辑于 2024-06-16 12:29:43

考虑到您已经使用上述代码创建了数据帧，您可以使用下面的代码来获取attendanceGroup。让我知道它是否有效。你知道吗

import pyspark.sql.functions as F
from pyspark.sql import Window

winSpec = Window.partitionBy('eno').orderBy('date')
df_unique = df.withColumn('prevAttendance', F.lag('attendance').over(winSpec))
df_unique = df_unique.filter((df_unique.attendance != df_unique.prevAttendance) | F.col('prevAttendance').isNull())
df_unique = df_unique.withColumn('attendanceGroup', F.row_number().over(winSpec))
df_unique = df_unique.withColumnRenamed('eno', 'eno_t').withColumnRenamed('date', 'date_t').drop('attendance').drop('prevAttendance')
df = df.join(df_unique, (df.eno == df_unique.eno_t) & (df.date == df_unique.date_t), 'left').drop('eno_t').drop('date_t')
df = df.withColumn('attendanceGroup', F.last('attendanceGroup', ignorenulls = True).over(winSpec))
df.orderBy('eno', 'date').show(10, False)

+ -+     +     +       -+
|eno|date      |attendance|attendanceGroup|
+ -+     +     +       -+
|1  |2019-08-16|Y         |1              |
|1  |2019-08-17|Y         |1              |
|1  |2019-08-18|N         |2              |
|1  |2019-08-19|Y         |3              |
|1  |2019-08-20|Y         |3              |
|1  |2019-08-21|N         |4              |
|1  |2019-08-22|Y         |5              |
|1  |2019-08-23|Y         |5              |
|2  |2019-08-16|Y         |1              |
|2  |2019-08-17|Y         |1              |
+ -+     +     +       -+
only showing top 10 rows

网友

2楼 · 编辑于 2024-06-16 12:29:43

你可以试试这个：

使用条件attendance != lag(attendance)创建grp标志，以便于对标志求和
创建一个由原始id eno和新创建的grp标志列划分的新窗口，并应用sum，基本上添加1以从1开始计数器。

window = Window.partitionBy("eno").orderBy("date")

df = df.withColumn('grp', F.when(F.col("attendance") != F.lag(F.col("attendance")).over(window), 1).otherwise(0))
df = df.withColumn("group", 1 + F.sum(F.col("grp")).over(Window.partitionBy("eno", "grp").orderBy("date"))).drop("grp").orderBy("eno", "date")

输出

+ -+     +     +  -+
|eno|      date|attendance|group|
+ -+     +     +  -+
|  1|2019-08-17|         Y|    1|
|  1|2019-08-18|         Y|    1|
|  1|2019-08-19|         N|    2|
|  1|2019-08-20|         Y|    3|
|  1|2019-08-21|         Y|    1|
|  1|2019-08-22|         N|    4|
|  1|2019-08-23|         Y|    5|
|  1|2019-08-24|         Y|    1|
|  2|2019-08-17|         Y|    1|
|  2|2019-08-18|         Y|    1|
|  2|2019-08-19|         N|    2|
|  2|2019-08-20|         Y|    3|
|  2|2019-08-21|         Y|    1|
|  2|2019-08-22|         N|    4|
|  2|2019-08-23|         N|    1|
|  2|2019-08-24|         N|    1|
|  2|2019-08-25|         Y|    5|
|  2|2019-08-26|         Y|    1|
|  2|2019-08-27|         N|    6|
|  3|2019-08-20|         Y|    1|
+ -+     +     +  -+
only showing top 20 rows

相关问题更多 >

编程相关推荐

热门问题

热门文章