使用BeautifulSoup解析html元素

2024-06-07 21:09:39 发布

您现在位置:Python中文网/ 问答频道 /正文

假设我有:

<tr>
   <td class="prodSpecAtribute">word</td>
   <td colspan="5">
      <a href="http://www.cmegroup.com/clearing/trading-practices/CMEblock-trade.html" target="_blank">another_word</a>
   </td>
</tr>

我想提取2个td类的文本(单词和另一个单词: 所以我用了beauthulsoup:

这就是Matijn Pieters要求的代码: 基本上,它从html页面(从表中)获取信息,并将这些值存储在左右列列表中。然后,根据这个细节创建一个字典(使用左边的列列表作为键,对于值,我使用右边的列列表)

^{pr2}$

Tags: comhttp列表htmlwww单词trclass
1条回答
网友
1楼 · 发布于 2024-06-07 21:09:39

您可以使用HTQL(http://htql.net)。在

以下是您的示例:

import htql
page="""
   <tr>
      <td class="prodSpecAtribute">word</td>
      <td colspan="5">
          <a href="http://www.cmegroup.com/clearing/trading-practices/CMEblock-trade.html" target="_blank">another_word</a>
      </td>
   </tr>
   """

query = """
   <tr>{ 
      c1 = <td (class='prodSpecAtribute')>1 &tx;
      c2 = <td>2 &tx &trim;
   }
   """ 

a=htql.query(page, query)
print(dict(a))

它打印:

^{pr2}$

相关问题 更多 >

    热门问题