如何在python中使用elementtree将节点的子节点合并到csv单元的一个单元中？

import xml.etree.ElementTree as ET import csv tree = ET.parse('the_example.xml') root = tree.getroot() with open('throw_it_all_in_this.csv', 'wb') as f: writer = csv.writer(f) for content in root.iter('p'): print content.text writer.writerow([content.text])

<?xml version="1.0" encoding="ISO-8859-1"?> <example> <item> <source>some site</source> <subject>Lorem ipsum dolor sit amet.</subject> <subjectcode>EN</subjectcode> <text> Nam urna tellus, dignissim eu dolor nec, elementum posuere magna. Integer euismod ipsum in lorem scelerisque efficitur. &lt; In hac habitasse platea dictumst. Nam sed iaculis diam, eget viverra dolor. Vestibulum rutrum dolor. &gt; Maecenas nisi dolor, pulvinar et diam vel, lacinia fringilla tellus. Quisque feugiat id est in molestie. Aliquam eleifend lectus sed ex aliquam egestas. Integer euismod ipsum in lorem scelerisque efficitur. Duis lobortis rutrum turpis, sit amet iaculis nibh pulvinar at. Cras euismod semper nibh, quis maximus nisi ultrices nec. Curabitur sed nisl molestie, ullamcorper dui nec, vestibulum mi. Proin quis efficitur turpis, quis aliquam purus. Curabitur id faucibus lacus, posuere ullamcorper eros. Nam ullamcorper accumsan magna, quis bibendum nibh. Mauris finibus iaculis est, nec consequat leo ultricies a. Etiam id sagittis mi. Mauris quis justo suscipit, placerat est vitae, aliquet nunc. Aenean tincidunt leo erat, id dictum mi iaculis nec. Class aptent taciti sociosqu ad litora torquent per conubia nostra, per inceptos himenaeos. </text> </item>

1条回答

网友

1楼 · 发布于 2024-05-29 03:32:56

迭代text标记，并在text标记中找到p标记。使用^{}组合它们：

....
for content in root.iter('text'):
    writer.writerow(['\n'.join(p.text for p in content.iter('p'))])

更新

根据OP的commnet，要处理TypeError，UnicodeEncodeErrorOP应该使用以下命令：

writer.writerow(['\n'.join(p.text for p in content.iter('p')
                 if p.text is not None).encode('utf-8')])

相关问题更多 >

编程相关推荐

热门问题

热门文章