如何从美化组中的表td中获取值？

<table width='100%' cellspacing='0' cellpadding='2' class='an'> <tr> <td width='35%' align='right'>XXX :</td> <td>20</td> </tr> <tr>< td align='right'>XXX :</td> <td>XXX</td> </tr> <tr> <td align='right'>XX :</td> <td>XXX</td> </tr> <tr> <td align='right'>XXX :</td> <td>XXX</td> </tr> <tr> <td align='right'>XXX :</td> <td>XXX</td> </tr> <tr> <td align='right'>XXX :</td> <td>XXX</td> </tr> <tr> <td align='right'>XXX :</td> <td>XXX</td> </tr> </table> <table width='361' cellspacing='0' cellpadding='2' class='an'> <tr> <td width='35%' align='right'>XXX :</td> <td>XXX</td> </tr> <tr> <td align='right'>XXX :</td> <td>XXX</td> </tr> <tr> <td align='right'>XXX :</td> <td>XXX</td> </tr> <tr> <td align='right'>XXX :</td> <td>XXX</td> </tr> <tr> <td align='right'>XX :</td> <td><a href='XXX'>XXX</a></td> </tr> <tr> <td align='right'>PHONE :</td> <td>518878943</td> </tr> </table>

page_src="""<table width='100%' cellspacing='0' cellpadding='2' class='an'> <tr> <td width='35%' align='right'>XXX :</td> <td>20</td> </tr> <tr>< td align='right'>XXX :</td> <td>XXX</td> </tr> <tr> <td align='right'>XX :</td> <td>XXX</td> </tr> <tr> <td align='right'>XXX :</td> <td>XXX</td> </tr> <tr> <td align='right'>XXX :</td> <td>XXX</td> </tr> <tr> <td align='right'>XXX :</td> <td>XXX</td> </tr> <tr> <td align='right'>XXX :</td> <td>XXX</td> </tr> </table> <table width='361' cellspacing='0' cellpadding='2' class='an'> <tr> <td width='35%' align='right'>XXX :</td> <td>XXX</td> </tr> <tr> <td align='right'>XXX :</td> <td>XXX</td> </tr> <tr> <td align='right'>XXX :</td> <td>XXX</td> </tr> <tr> <td align='right'>XXX :</td> <td>XXX</td> </tr> <tr> <td align='right'>XX :</td> <td><a href='XXX'>XXX</a></td> </tr> <tr> <td align='right'>PHONE :</td> <td>518878943</td> </tr> </table> """ soup = BeautifulSoup(page_src, 'html.parser') divs = soup.findAll("table", {"class": "an"}) for div in divs: row = '' rows = [row in div.findAll('tbody').findAll('tr')]

tds = [] soup = BeautifulSoup(page_src, 'html.parser') divs = soup.findAll("table", {"class": "an"}) for div in divs: rows = div.findAll('tr') for row in rows : tds.append(row.findAll('td')) phone = str(tds[12][1]) phone = phone.replace("<td>", "").replace("</td>", "").strip() print phone

2条回答

网友

1楼 · 编辑于 2024-04-26 02:19:04

找到包含PHONE :的td元素，然后得到following sibling element。一行：

soup.find("td", text="PHONE :").find_next_sibling("td").text

网友

2楼 · 编辑于 2024-04-26 02:19:04

你的代码有几个问题。

divs = soup.findAll("table", {"class": "an"})  
for div in divs:
    row = ''
    rows = [row in div.findAll('tbody').findAll('tr')]

第一个问题是没有tbody标记，因此div.findAll('tbody')将不返回任何内容。

第二个问题是div.findAll('tbody')将返回一个数组，而不是一个标记，因此您不能对它调用findAll('tr')。

下面是要获取表中所有tr标记的内容：

divs = soup.findAll("table", {"class": "an"})  
for div in divs:
    row = ''
    rows = div.findAll('tr')

然后，您可以遍历所有的tr标记，并调用.text来获取行内的文本，无论哪个标记中有“PHONE”都是您想要的。

soup = BeautifulSoup(page_src, 'html.parser')
divs = soup.findAll("table", {"class": "an"})
for div in divs:
    row = ''
    rows = div.findAll('tr')
    for row in rows:
        if(row.text.find("PHONE") > -1):
            print(row.text)

生成：

PHONE :
518878943

相关问题更多 >

编程相关推荐

热门问题

热门文章