pyspark apply函数在列上

+---------------------------------------------------------------+ | Path| +---------------------------------------------------------------+ |/utility/tracking/opened/50DD3254-BA1D-4D0B-ADB5-6529E9C90982/0| |/utility/tracking/tracking/ClickedUrl | +---------------------------------------------------------------+

2条回答

网友

1楼 · 编辑于 2024-05-14 22:48:04

您需要从函数返回值，而不是打印它们。像这样-

def clickopen(x):
    if 'opened' in x.lower().split('/'):
        return 10
    elif 'clickedurl' in x.lower().split('/'):
        return 20
    else:
        return None

我不知道如何在pySpark中返回null。在

网友

2楼 · 编辑于 2024-05-14 22:48:04

正如其他人提到的，您的主要问题是打印值而不是返回值。然而，即使在修复之后，在这里使用udf也是非常低效的。在

相反，可以使用^{}和^{}。在

尝试：

import pyspark.sql.functions as f

new_df = new_df.withColumn(
    "Path",
    f.when(
        f.lower(f.col("Path")).like(r"%opened%"),
        f.lit(10)
    ).when(
        f.lower(f.col("Path")).like(r"%clickedurl"),
        f.lit(20)
    )
)

默认情况下，when将返回null，如果没有任何条件匹配。在

相关问题更多 >

编程相关推荐

热门问题

热门文章