从.docx文档的xml中提取数据

xml_string=" <w:r w:rsid="00F1234A"> <w:rPr> </w:rPr> <w:t>Hello</w:t> </w:r> <w:r w:rsid="00F1234A"> <w:rPr> </w:rPr> <w:t xml:space="preserve">World</w:t> </w:r>"

1条回答

网友

1楼 · 发布于 2024-06-16 09:38:31

为了解析它，您需要XML（xmlns: x = "urn:something"）中的名称空间

使用etrees提取值，而不是像这样使用正则表达式：

 import xml.etree.ElementTree as ET
#parse XML string
tree = ET.fromstring('xml_string')

#declare namespace dictionary
nsmap = {'w':'http://schemas.openxmlformats.org/wordprocessingml/2006/main'}

tagvalues = []
#loop through all w:t tags and append their values to list
for i in root.findall('.//w:r//w:t', nsmap):
    tagvalues.append(i.text)

#concatenate all values into a string
string  = ''
[string.join(word) for word in tagvalues]

也请查看this post

编程相关推荐

java如何运行一个在播放歌曲的同时创建和更改UI的方法？
eclipse错误：无法找到或加载主类Java，因为类文件anme和类名不同？
两个数字相加得到一个值的java算法
java我可以更改字符串吗？
java Hibernate 5.2：以编程方式从其他jar加载映射
java如何访问随机跳转到固定位置的二进制文件
java是解析器实现中文档的功能
Javasocket的两端齐平
java查找将两个非常大的整数之和除以相等块的步骤
java如何在Restlet中调用带超时的异步HTTP客户端

相关问题更多 >

编程相关推荐

热门问题

热门文章

从.docx文档的xml中提取数据

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >