将regexp_extract和regexp_replace组合起来，以屏蔽pyspark数据帧列中的数字

1条回答

网友

1楼 · 发布于 2024-05-23 21:47:22

试试这种方法

        from pyspark.sql import functions as F

        df = sc.parallelize([
            (1, "123 Apple Street"), (2 ,"123-45-6789 Broad Street")
        ]).toDF(["index", "address"])

        df.show(truncate = False)

      +  -+            +
      |index|address                 |
      +  -+            +
      |1    |123 Apple Street        |
      |2    |123-45-6789 Broad Street|
      +  -+            +

        df2 = df.withColumn("address", F.when(F.col('address').rlike("\d{3}-\d{2}-\d{4}|\d{3} \d{2} \d{4}"), F.regexp_replace(F.col('address'),r'\d','X')).otherwise(F.col('address')))

        df2.show(truncate=False)



        +  -+            +
        |index|address                 |
        +  -+            +
        |1    |123 Apple Street        |
        |2    |XXX-XX-XXXX Broad Street|
        +  -+            +

编程相关推荐

graph Java自己生成类图
java MouseMotionListener：鼠标和触控板给出不同的结果
java解析清单条目的正确方法是什么。jar中的mf文件？
java如何创建带有半透明色块的透明gif/png图像？
java应用内计费V3：跨设备同步购买
java Spring数据JPA注入失败BeanCreationException:无法自动连接字段
Java数据结构维护插入顺序和重复值
java无法在VSCode中设置JavaFX
java中数据字段初始化的类顺序
java如何使用ClientBuilder为Rest Post Api多部分编写集成测试

相关问题更多 >

编程相关推荐

热门问题

热门文章

将regexp_extract和regexp_replace组合起来，以屏蔽pyspark数据帧列中的数字

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >