xpath“//tr”和etree.findall公司在python中报废时

2024-03-29 07:47:03 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在取消一个网站(经允许)。但是在这里,当我选择tr的所有table元素时,我得到了一个非常不规则的行为。
如果使用xpath选择,则长度为67;如果使用findall选择,则长度为3,这是正确的。
工作示例

import urllib2
from lxml import html
from lxml import etree
import string
import csv

req_headers = {
    'User-agent':
    'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.143 Safar/537.36'
    }
anz_extra_url = u"https://sg.anz.com/apps/wealth/"
request = urllib2.Request(anz_extra_url, None, req_headers)
page = urllib2.urlopen(request).read()
parser = etree.HTMLParser()
table_root = etree.fromstring(page, parser)
all_tables = table_root.xpath("//table[@width=869]")
len(all_tables[1].findall("tr"))
#output = 3
len(all_tables[1].xpath("//tr"))
#output = 67

编辑:
所有表[1]的结构如下所示

etree.tostring(all_tables[1])
#output
<table width="869" border="0" cellpadding="0" cellspacing="1">&#13;\n                            <tr>&#13;\n                                <td width="35%" align="left" bgcolor="#004165" style="font-weight: bold; color: #FFFFFF; padding: 5px 15px;">&#13;\n                                    Placement Amount</td>&#13;\n                                <td width="65%" bgcolor="#004165" style="font-weight: bold; color: #FFFFFF; padding: 5px 15px;;" align="center">&#13;\n                                    9-Month ANZ Instant Interest Time Deposit Interest Rate                                </td>&#13;\n                            </tr>&#13;\n                            <tr>&#13;\n                                <td align="left" style="padding: 5px 15px;">&#13;\n                                    SGD150,000 and above&#13;\n                                </td>&#13;\n                                <td align="center" style="padding: 5px 15px;">&#13;\n                                    1.38% p.a.&#13;\n                                </td>&#13;\n                            </tr>&#13;\n                            <tr>&#13;\n                                <td align="left" bgcolor="#C6DFEA" style="padding: 5px 15px;">&#13;\n                                    Below SGD150,000</td>&#13;\n                                <td align="center" bgcolor="#C6DFEA" style="padding: 5px 15px;">&#13;\n                                    0.70% p.a.&#13;\n                                </td>&#13;\n                            </tr>&#13;\n                        </table>&#13;\n                        \n

为什么会这样?你知道吗

谢谢


Tags: importtablesstyletableallurllib2widthxpath