在Python中美化组-获取类型的第n个标记

2024-03-28 19:59:35 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一些html代码,其中包含许多<table>

我想把资料放在第二张桌子上。有没有办法不用soup.findAll('table')就可以做到这一点?

当我使用soup.findAll('table')时,会得到一个错误:

ValueError: too many values to unpack

有没有一种方法可以用某些代码或其他不需要遍历所有表的方法获取第n个标记?或者我应该看看我是否可以在表格中添加标题?(就像<table title="things">

如果有帮助的话,每个表上面也有头(<h4>title</h4>)。

谢谢。

编辑

下面是我问这个问题时的想法:

我正在将对象解压成两个值,这时还有更多的值。我以为这只会给我列表中的前两项,但当然,它一直给我上面提到的错误。我不知道返回值是一个列表,我认为它是一个特殊的对象或其他东西,我的代码是基于我的朋友。

我认为这个错误意味着页面上有太多的表,它不能处理所有的表,所以我想找一种没有我正在使用的方法的方法。我也许应该停止假设。

现在我知道它返回一个列表,我可以在for循环中使用它,或者使用soup.findAll('table')[someNumber]从中获取一个值。我学会了什么是拆包以及如何使用它。谢谢所有帮忙的人。

希望这能澄清一些事情,现在我知道我在做什么,我的问题没有我问的时候那么有意义,所以我想我应该把我的想法写在这里。

编辑2:

这个问题现在已经很老了,但我仍然明白,我从来没有真正清楚自己在做什么。

如果这对任何人都有帮助的话,我正试图解开findAll(...)结果,其中的数量我不知道。

useless_table, table_i_want, another_useless_table = soup.findAll("table");

由于页面中并不总是有我猜到的表的数量,而且元组中的所有值都需要解压缩,所以我收到了ValueError

ValueError: too many values to unpack

所以,我在寻找一种方法来获取返回的元组中的第二个(或任何索引)表,而不会遇到关于使用了多少个表的错误。


Tags: to方法代码列表title错误tableh4
3条回答

这是我的版本

# Import bs4
from bs4 import BeautifulSoup

# Read your HTML
#html_doc = your html

# Get BS4 object
soup = BeautifulSoup(html_doc, "lxml")

# Find next Sibling Table to H3 Header with text "THE GOOD STUFF"    
the_good_table = soup.find(name='h3', text='THE GOOD STUFF').find_next_sibling(name='table')

# Find Second tr in your table
your_tr = the_good_table.findAll(name='tr')[1]

# Find Text Value of First td in your tr
your_string = your_tr.td.text

print(your_string)

输出:

'I WANT THIS STRING'

要从调用soup.findAll('table')中获取第二个表,请将其用作列表,对其进行索引:

secondtable = soup.findAll('table')[1]

马尔金·皮耶特的回答将使它真正起作用。我有过嵌套table标记的一些经验,当我只是简单地获得列表中的第二个表而没有注意时,它就破坏了我的代码。

当您尝试find_all并获取第n个元素时,可能会出现混乱,您最好找到所需的第一个元素,并确保第n个元素实际上是该元素的同级而不是子元素。

  1. 您可以使用find_next_sibling()来保护您的代码
  2. 您可以先找到父项,然后使用find_all(recursive=False)来保证搜索范围。

以防万一。我将在下面列出我的代码(使用recursive=FALSE)。

import urllib2
from bs4 import BeautifulSoup

text = """
<html>
    <head>
    </head>
    <body>
        <table>
            <p>Table1</p>
            <table>
                <p>Extra Table</p>
            </table>
        </table>
        <table>
            <p>Table2</p>
        </table>
    </body>
</html>
"""

soup = BeautifulSoup(text)

tables = soup.find('body').find_all('table')
print len(tables)
print tables[1].text.strip()
#3
#Extra Table # which is not the table you want without warning

tables = soup.find('body').find_all('table', recursive=False)
print len(tables)
print tables[1].text.strip()
#2
#Table2 # your desired output

相关问题 更多 >