从pySp中的dict构建行

from pyspark.sql import Row row_dict = {'C0': -1.1990072635132698, 'C3': 0.12605772684660232, 'C4': 0.5760856026559944, 'C5': 0.1951877800894315, 'C6': 24.72378589441825, 'summary': 'kurtosis'} new_row = Row(row_dict)

r = Row('summary', 'C0', 'C3', 'C4', 'C5', 'C6') r(row_dict) > Row(summary={'summary': 'kurtosis', 'C3': 0.12605772684660232, 'C0': -1.1990072635132698, 'C6': 24.72378589441825, 'C5': 0.1951877800894315, 'C4': 0.5760856026559944})

2条回答

网友

1楼 · 编辑于 2024-06-06 13:23:57

如果dict不平坦，可以递归地将dict转换为行。

def as_row(obj):
    if isinstance(obj, dict):
        dictionary = {k: as_row(v) for k, v in obj.items()}
        return Row(**dictionary)
    elif isinstance(obj, list):
        return [as_row(v) for v in obj]
    else:
        return obj

网友

2楼 · 编辑于 2024-06-06 13:23:57

可以按如下方式使用关键字参数解包：

Row(**row_dict)

## Row(C0=-1.1990072635132698, C3=0.12605772684660232, C4=0.5760856026559944, 
##     C5=0.1951877800894315, C6=24.72378589441825, summary='kurtosis')

需要注意的是，地址problems with older Python versions是internally sorts data by key。

这种行为可能会在即将发布的版本中被删除-请参见SPARK-29748在PySpark SQL行创建中删除字段排序。一旦删除，您就必须确保dict中的值顺序在所有记录中是一致的。

相关问题更多 >

编程相关推荐

热门问题

热门文章