pyspark：通过ArrayType列筛选和提取结构

+----+----------------------------------------------+ |col1|col2 | +----+----------------------------------------------+ |A |[[id1, [k -> v1]], [id2, [k2 -> v5, k -> v2]]]| |B |[[id3, [k -> v3]], [id4, [k3 -> v6, k -> v4]]]| +----+----------------------------------------------+

from pyspark.sql.types import StructType, StructField, StringType, ArrayType, MapType schema = StructType([ StructField('col1', StringType(), True), StructField('col2', ArrayType( StructType([ StructField('id', StringType(), True), StructField('metadata', MapType(StringType(), StringType()), True) ]) )) ]) data = [ ('A', [('id1', {'k': 'v1'}), ('id2', {'k': 'v2', 'k2': 'v5'})]), ('B', [('id3', {'k': 'v3'}), ('id4', {'k': 'v4', 'k3': 'v6'})]) ] df = spark.createDataFrame(data=data, schema=schema)

2条回答

网友

1楼 · 编辑于 2024-04-26 07:33:02

编辑：您可以尝试自定义项：

import pyspark.sql.functions as F

df2 = df.filter(
    F.udf(lambda x: any([y.id == 'id2' and 'k' in y.metadata.keys() for y in x]), 'boolean')('col2')
).withColumn(
    'col2',
    F.udf(lambda x: [y for y in x if y.id == 'id2' and 'k' in y.metadata.keys()][0], 'struct<id:string,metadata:map<string,string>>')('col2')
)

df2.show(truncate=False)
+  +             +
|col1|col2                      |
+  +             +
|A   |[id2, [k2 -> v5, k -> v2]]|
+  +             +

您可以将列强制转换为JSON，并检查col2是否包含所需的JSON：

import pyspark.sql.functions as F

df2 = df.filter(
    (F.col('col1') == 'A') &
    F.to_json('col2').contains(
        F.to_json(
            F.struct(
                F.lit('id2').alias('id'),
                F.create_map(F.lit('k'), F.lit('v2')).alias('metadata')
            )
        )
    )
)

df2.show(truncate=False)
+  +                  +
|col1|col2                                |
+  +                  +
|A   |[[id1, [k -> v1]], [id2, [k -> v2]]]|
+  +                  +

如果只想在col2中保留匹配的结构，可以使用withColumn替换它：

df3 = df2.withColumn(
    'col2', 
    F.struct(
        F.lit('id2').alias('id'),
        F.create_map(F.lit('k'), F.lit('v2')).alias('metadata')
    )
)

df3.show()
+  +        +
|col1|            col2|
+  +        +
|   A|[id2, [k -> v2]]|
+  +        +

网友

2楼 · 编辑于 2024-04-26 07:33:02

除了@mck的解决方案外，我在搜索后尝试了另外三种方法，所有这些方法都得到了预期的结果

使用udf进行筛选并返回匹配的结构

df.filter(df.col1 == 'A') \
  .select(df.col1, udf(lambda a: [s for s in a if s.id == 'id2' and s.metadata['k'] == 'v2'], df.schema['col2'].dataType)('col2')[0].alias('col2_filtered')) \
  .na.drop('any')

使用udf进行筛选并获取匹配结构的索引

df.filter(df.col1 == 'A') \
  .select(df.col1, df.col2.getItem(udf(lambda a: [i for i, s in enumerate(a) if s.id == 'id2' and s.metadata['k'] == 'v2'], ArrayType(IntegerType(), True))(df.col2)[0]).alias('col2_filtered')) \
  .na.drop('any')

使用expr进行过滤，这是Spark 2.4中的一项功能，因此可以作为未来升级的候选功能

df.filter(df.col1 == 'A') \
  .select(df.col1, expr("filter(col2, s -> s.id == 'id2' AND s.metadata['k'] == 'v2')").getItem(0).alias('col2_filtered')) \
  .na.drop('any')

相关问题更多 >

编程相关推荐

热门问题

热门文章