使用lxml代码进行HTML解析

1 投票

2 回答

1839 浏览

提问于 2025-04-16 15:37

我有以下的HTML代码：

<table class="results">
  <tr>
    <td>
      <a href="..">link</a><span>2nd Mar 2011</span><br>XYZ Consultancy Ltd<br>
       <div>....</div>
    </td>
  </tr>
</table>

我正在使用lxml和Python代码来解析上面的HTML文件。我想提取“XYZ Consultancy Ltd”，但是我不知道该怎么做。目前我的代码是这样的：

import lxml.html
for el in root.cssselect("table.results"):    
 for el2 in el: #tr tags
  for e13 in el2:#td tags
     for e14 in e13:
      if ( e14.tag == 'a') :
         print "keyword: ",e14.text_content()
      if (e14.tag == 'span'):
         print "date: ",e14.text_content()

数据提取网页抓取 html解析 lxml库

2 个回答

一种方法是使用XPath来找到这样的a节点，然后检查它后面的两个元素是否是span和br。如果是这样，就查看br元素的tail属性：

从lxml库中导入etree

data = '''<table class="results">
  <tr>
    <td>
      <a href="..">link</a><span>2nd Mar 2011</span><br>XYZ Consultancy Ltd<br>
       <div>....</div>
    </td>
  </tr>
</table>'''

root = etree.HTML(data)

for e in root.xpath('//table[@class="results"]/tr/td/a'):
    parsed_tag = e.text
    next = e.getnext()
    if next is None or next.tag != 'span':
        continue
    parsed_date = next.text
    next_next = next.getnext()
    if next_next is None or next_next.tag != 'br':
        continue
    print 'tag: ', parsed_tag
    print 'date: ', parsed_date
    print 'company: ', next_next.tail

回答于 2025-04-16 由 Python大师

分享举报

你可以使用CSS选择器中的+，这是一种叫做“直接相邻组合器”的东西，来选中在文本前面的<br>标签。然后，目标文本就包含在它的tail属性里。

import lxml.html
root = lxml.html.fromstring('''
<table class="results">
  <tr>
    <td>
      <a href="..">link</a><span>2nd Mar 2011</span><br>XYZ Consultancy Ltd<br>
       <div>....</div>
    </td>
  </tr>
</table>
''')
for br_with_tail in root.cssselect('table.results > tr > td > a + span + br'):
    print br_with_tail.tail
    # => XYZ Consultancy Ltd

回答于 2025-04-16 由 Python大师

分享举报

使用lxml代码进行HTML解析

2 个回答

撰写回答