包含XML列和多个值的Pyspark数据框架：从中提取列

<?xml version="1.0" encoding="utf-8"?> <goals> <goal id="445" name="xxxy" sex="F" /> <goal id="2468" name="qwerzui" sex="F" /> <goal id="4334" name="foo" sex="M" /> <goal id="15" name="fooh" sex="F" /> </goals>

2条回答

网友

1楼 · 编辑于 2024-05-18 23:44:43

下面的代码生成3个列表

import xml.etree.ElementTree as ET

XML = '''<?xml version="1.0" encoding="utf-8"?> <goals> <goal id="445" name="xxxy" sex="F" /> 
                                                        <goal id="2468" name="qwerzui" sex="F" /> <goal id="4334" name="foo" sex="M" /> 
                                                        <goal id="15" name="fooh" sex="F" /> 
                                                </goals>
'''
final = []
attributes = ['id', 'name', 'sex']
root = ET.fromstring(XML)
for attrib in attributes:
    final.append([g.attrib[attrib] for g in root.findall('goal')])
print(final)

输出

[['445', '2468', '4334', '15'], ['xxxy', 'qwerzui', 'foo', 'fooh'], ['F', 'F', 'M', 'F']]

网友

2楼 · 编辑于 2024-05-18 23:44:43

使用xpath。不需要使用UDF，应该可以提供更好的性能

df2 = df.selectExpr(
    ["xpath(col, 'goals/goal/@%s') as %s" % (c,c) for c in ['id', 'name', 'sex']]
)

df2.show(20,0)
+          -+             +      +
|id                   |name                      |sex         |
+          -+             +      +
|[445, 2468, 4334, 15]|[xxxy, qwerzui, foo, fooh]|[F, F, M, F]|
+          -+             +      +

如果要将它们添加为新列，请执行以下操作

df2 = df.selectExpr('*',
    *["xpath(col, 'goals/goal/@%s') as %s" % (c,c) for c in ['id', 'name', 'sex']]
)

相关问题更多 >

编程相关推荐

热门问题

热门文章

包含XML列和多个值的Pyspark数据框架：从中提取列

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >