Python 解析：使用 lxml 获取标签文本的部分内容

0 投票

3 回答

1510 浏览

提问于 2025-04-16 01:39

我正在用Python处理这样的HTML内容。我用的是lxml库，但其实用pyquery也可以。

<p><span class="Title">Name</span>Dave Davies</p>
<p><span class="Title">Address</span>123 Greyfriars Road, London</p>

提取'姓名'和'地址'非常简单，不管我用哪个库，但我该怎么获取剩下的文本，比如'Dave Davies'呢？

数据处理 html解析文本提取 lxml库

3 个回答

看看这个BeautifulSoup吧。我刚开始用它，所以还不是专家。随便说说我的一些想法：

import BeautifulSoup

text = '''<p><span class="Title">Name</span>Dave Davies</p>
          <p><span class="Title">Address</span>123 Greyfriars Road, London</p>'''

soup = BeautifulSoup.BeautifulSoup(text)

paras = soup.findAll('p')

for para in paras:
    spantext = para.span.text
    othertext = para.span.nextSibling
    print spantext, othertext

[Out]: Name Dave Davies
       Address 123 Greyfriars Road, London

回答于 2025-04-16 由 Python大师

分享举报

另一种方法是使用 xpath：

>>> from lxml import html
>>> doc = html.parse( file )
>>> doc.xpath( '//span[@class="Title"][text()="Name"]/../self::p/text()' )
['Dave Davies']
>>> doc.xpath( '//span[@class="Title"][text()="Address"]/../self::p/text()' )
['123 Greyfriars Road, London']

回答于 2025-04-16 由 Python大师

分享举报

每个元素都可以有一个文本和一个尾部属性（在链接中搜索“tail”这个词）:

import lxml.etree

content='''\
<p><span class="Title">Name</span>Dave Davies</p>
<p><span class="Title">Address</span>123 Greyfriars Road, London</p>'''


root=lxml.etree.fromstring(content,parser=lxml.etree.HTMLParser())
for elt in root.findall('**/span'):
    print(elt.text, elt.tail)

# ('Name', 'Dave Davies')
# ('Address', '123 Greyfriars Road, London')

回答于 2025-04-16 由 Python大师

分享举报

Python 解析：使用 lxml 获取标签文本的部分内容

3 个回答

撰写回答