Pypark正则表达式引擎不匹配

df = spark.createDataFrame([ ('RESIDENCE LA VENDEENNE 80 81 RUE LOUIS LUMIERE',) ], ["adresse1"]) df.withColumn("adresse1", regexp_replace("adresse1", "(\w+(?:\s*|\d*)\s+RUE\s.*)", '$1')).show(truncate=False)

+-----------------------------------------------+ |adresse1 | +-----------------------------------------------+ |RESIDENCE LA VENDEENNE 80 81 RUE LOUIS LUMIERE| +-----------------------------------------------+

1条回答

网友

1楼 · 发布于 2024-06-02 05:41:00

我认为应该使用^{}而不是^{}：

from pyspark.sql.functions import regexp_extract

df.withColumn(
    "adresse1", 
    regexp_extract("adresse1", r"(\w+(?:\s*|\d*)\s+RUE\s.*)", 1)
).show(truncate=False)
#+          +
#|adresse1            |
#+          +
#|81 RUE LOUIS LUMIERE|
#+          +

要在模式不匹配时保持列值不变，可以使用^{}和^{}：

from pyspark.sql.functions import col, when

pat = r"(\w+(?:\s*|\d*)\s+RUE\s.*)"

df.withColumn(
    "adresse1", 
    when(
        col("adresse1").rlike(pat), regexp_extract("adresse1", pat, 1)
    ).otherwise(col("adresse1"))
).show(truncate=False)

相关问题更多 >

编程相关推荐

热门问题

热门文章