Python 中如何使用 XPath 解析命名空间 XML？

3 投票

1 回答

618 浏览

提问于 2025-04-18 05:40

我正在使用lxml和xpath来解析一个epub3格式的xhtml内容文件。

我想选择所有带有属性epub:type="footnote"的li节点，比如说：

<li epub:type="footnote" id="fn14"> ... </li>

但是我找不到合适的xpath表达式来做到这一点。

这个表达式：

//*[self::li][@id]

确实能选中所有带有id属性的li节点，但当我尝试这个：

//*[self::li][@epub:type]

我就会收到一个错误：

lxml.etree.XPathEvalError: Undefined namespace prefix

这个XML是：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE html>
<html xmlns="http://www.w3.org/1999/xhtml" xmlns:epub="http://www.idpf.org/2007/ops">
    <head>
        <meta charset="utf-8" />
        <link rel="stylesheet" href="stylesheet.css" />
    </head>
    <body> 
        <section class="footnotes">
            <hr />
            <ol>
                <li id="fn1" epub:type="footnote">
                    <p>See foo</p>
                </li>
            </ol>
        </section>
    </body>
</html>

有没有人能给我一些建议，帮我写出正确的表达式呢？

lxml xpath xml解析属性过滤节点选择 epub3

1 个回答

你有没有把命名空间前缀 epub 声明给 lxml 呢？

>>> tree.getroot().xpath(
...     "//li[@epub:type = 'footnote']", 
...     namespaces={'epub':'http://www.idpf.org/2007/ops'}
...     )

根据问题更新

XHTML 的命名空间也让你遇到麻烦。试试这个：

>>> tree.getroot().xpath(
...     "//xhtml:li[@epub:type = 'footnote']", 
...     namespaces={'epub':'http://www.idpf.org/2007/ops', 'xhtml': 'http://www.w3.org/1999/xhtml'}
...     )

回答于 2025-04-18 由 Python大师

分享举报

Python 中如何使用 XPath 解析命名空间 XML？

1 个回答

根据问题更新

撰写回答