Pyspark:拆分并选择字符串列值的一部分

2024-05-18 23:27:46 发布

您现在位置:Python中文网/ 问答频道 /正文

如何从spark DF中的列中选择Dev\”dev\后面的字符或文件路径

pyspark列的样本行:

\\D\Dev\johnny\Desktop\TEST
\\D\Dev\matt\Desktop\TEST\NEW
\\D\Dev\matt\Desktop\TEST\OLD\TEST
\\E\dev\peter\Desktop\RUN\SUBFOLDER\New

预期产出

johnny\Desktop\TEST
matt\Desktop\TEST\NEW
matt\Desktop\TEST\OLD\TEST
peter\Desktop\RUN\SUBFOLDER\New

我尝试使用下面的代码

df = df.withColumn(
        "sub_path",
        F.element_at(F.split(F.col("path"), "Dev\\\\"), -1)
    )

它只是给出了我想要的正确结果。 感谢有人能帮忙


Tags: pathrundevtestdfnewmattold
1条回答
网友
1楼 · 发布于 2024-05-18 23:27:46

以下修改[Dd]同时匹配大写和小写d

df = df.withColumn(
        "sub_path",
        F.element_at(F.split(F.col("path"), "[Dd]ev\\\\"), -1)
    )

让我知道这是否适合你

相关问题 更多 >

    热门问题