lxmlxpath返回一个空的lis

2024-06-09 19:07:11 发布

您现在位置:Python中文网/ 问答频道 /正文

<!DOCTYPE html><html xmlns="http://www.w3.org/1999/xhtml" class="pc chrome win psc_dir-ltr psc_form-xlarge" dir="ltr" lang="en">
<title>Some Title</title>
</html>

如果我跑:

^{pr2}$

我会得到一份空名单。 我想这和名称空间有关,但我不知道如何修复它。在


Tags: orghttptitlehtmlwwwdirchromedoctype
3条回答

您还可以使用HTML解析器:

from lxml import etree
parser = etree.HTMLParser() 
html = etree.parse('text.txt',parser)
result = html.xpath('//title')
print(result)

你可以这样做:

from lxml import etree
parser = etree.HTMLParser() 
html = etree.parse('text.txt',parser)
result = html.xpath('//title/text()')
print(result)

输出为:

^{pr2}$

尝试使用html解析器创建树。 还要注意,如果text.txt是一个文件,则需要先读取它。在

with open('text.txt', 'r', encoding='utf8') as f:
    text_html = f.read()

像这样:

^{pr2}$

相关问题 更多 >