如何将pySpark数据帧按一个数组列平铺？

+------+--------+--------------+--------------------+ | dbn| boro|total_students| sBus| +------+--------+--------------+--------------------+ |17K548|Brooklyn| 399|[B41, B43, B44-SB...| |09X543| Bronx| 378|[Bx13, Bx15, Bx17...| |09X327| Bronx| 543|[Bx1, Bx11, Bx13,...| +------+--------+--------------+--------------------+

+------+--------+--------------+--------------------+ | dbn| boro|total_students| sBus| +------+--------+--------------+--------------------+ |17K548|Brooklyn| 399| B41 | |17K548|Brooklyn| 399| B43 | |17K548|Brooklyn| 399| B44-SB | +------+--------+--------------+--------------------+

1条回答

网友

1楼 · 发布于 2024-06-12 05:07:18

我想不出不把它变成RDD的方法。

# convert df to rdd
rdd = df.rdd

def extract(row, key):
    """Takes dictionary and key, returns tuple of (dict w/o key, dict[key])."""
    _dict = row.asDict()
    _list = _dict[key]
    del _dict[key]
    return (_dict, _list)


def add_to_dict(_dict, key, value):
    _dict[key] = value
    return _dict


# preserve rest of values in key, put list to flatten in value
rdd = rdd.map(lambda x: extract(x, 'sBus'))
# make a row for each item in value
rdd = rdd.flatMapValues(lambda x: x)
# add flattened value back into dictionary
rdd = rdd.map(lambda x: add_to_dict(x[0], 'sBus', x[1]))
# convert back to dataframe
df = sqlContext.createDataFrame(rdd)

df.show()

棘手的部分是将其他列与新展平的值放在一起。为此，我将每一行映射到一个(dict of other columns, list to flatten)元组，然后调用^{}。这将把值列表的每个元素分割成一个单独的行，但是保持键的附加，即

(key, ['A', 'B', 'C'])

变成

(key, 'A')
(key, 'B')
(key, 'C')

然后，我将展平值移回其他列的字典中，并将其重新转换回数据帧。

相关问题更多 >

编程相关推荐

热门问题

热门文章