Python 中如何使用 XPath 解析命名空间 XML?
我正在使用lxml和xpath来解析一个epub3格式的xhtml内容文件。
我想选择所有带有属性epub:type="footnote"
的li
节点,比如说:
<li epub:type="footnote" id="fn14"> ... </li>
但是我找不到合适的xpath表达式来做到这一点。
这个表达式:
//*[self::li][@id]
确实能选中所有带有id属性的li
节点,但当我尝试这个:
//*[self::li][@epub:type]
我就会收到一个错误:
lxml.etree.XPathEvalError: Undefined namespace prefix
这个XML是:
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE html>
<html xmlns="http://www.w3.org/1999/xhtml" xmlns:epub="http://www.idpf.org/2007/ops">
<head>
<meta charset="utf-8" />
<link rel="stylesheet" href="stylesheet.css" />
</head>
<body>
<section class="footnotes">
<hr />
<ol>
<li id="fn1" epub:type="footnote">
<p>See foo</p>
</li>
</ol>
</section>
</body>
</html>
有没有人能给我一些建议,帮我写出正确的表达式呢?
1 个回答
5
你有没有把命名空间前缀 epub
声明给 lxml 呢?
>>> tree.getroot().xpath(
... "//li[@epub:type = 'footnote']",
... namespaces={'epub':'http://www.idpf.org/2007/ops'}
... )
根据问题更新
XHTML 的命名空间也让你遇到麻烦。试试这个:
>>> tree.getroot().xpath(
... "//xhtml:li[@epub:type = 'footnote']",
... namespaces={'epub':'http://www.idpf.org/2007/ops', 'xhtml': 'http://www.w3.org/1999/xhtml'}
... )