我怎样才能从一张有美组的桌子上得到第一个和第三个td？

1条回答

网友

1楼 · 发布于 2024-06-07 14:40:15

这是一段很讨厌的HTML。如果我们暂时忽略表行和表单元格的语义，并将其视为纯XML，则其结构如下：

<tr>
  <td>1
    <td>
      <td>20
        <td>5%</td>
      </td>
    </td>
  </td>
</tr>

但是，BeautifulSoup知道HTML表的语义，而是这样解析：

<tr>
  <td>1        <!-- an IMPLICITLY (no closing tag) closed td element -->
  <td>         <!-- as above -->
  <td>20       <!-- as above -->
  <td>5%</td>  <!-- an EXPLICITLY closed td element -->
  </td>        <!-- an error; ignore this -->
  </td>        <!-- as above -->
  </td>        <!-- as above -->
</tr>

。。。所以，正如您所说，1和20分别在第一和第三个td元素（not tags）中。

实际上，您可以获取这些td元素的内容，如下所示：

>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup("<tr><td>1<td><td>20<td>5%</td></td></td></td></tr>")
>>> tr = soup.find("tr")
>>> tr
<tr><td>1</td><td></td><td>20</td><td>5%</td></tr>
>>> td_list = tr.find_all("td")
>>> td_list
[<td>1</td>, <td></td>, <td>20</td>, <td>5%</td>]
>>> td_list[0]  # Python starts counting list items from 0, not 1
<td>1</td>
>>> td_list[0].text
'1'
>>> td_list[2].text
'20'
>>> td_list[3].text
'5%'

相关问题更多 >

编程相关推荐

热门问题

热门文章

我怎样才能从一张有美组的桌子上得到第一个和第三个td？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >