用Python中的LXML解析HTML表

<table class="table1" width="620" cellspacing="0" cellpadding="0" border="0"> <tbody> <tr width="620"> <th width="620">Smth1</th> ... </tr> <tr bgcolor="ffffff" width="620"> <td width="620">Smth2</td> ... </tr> <tr bgcolor="E4E4E4" width="620"> <td width="620">Smth3</td> ... </tr> <tr bgcolor="ffffff" width="620"> <td width="620">Smth4</td> ... </tr> </tbody> </table>

r = requests.post(url,data) html = lxml.html.document_fromstring(r.text) rows = html.xpath(xpath1)[0].findall("tr") #Getting Xpath with FireBug data = list() for row in rows: data.append([c.text for c in row.getchildren()])

2条回答

网友

1楼 · 编辑于 2024-04-25 00:37:52

您的.xpath(xpath1)XPath表达式找不到任何元素。检查该表达式是否有错误。

网友

2楼 · 编辑于 2024-04-25 00:37:52

您没有包含XPath，所以我不确定您要做什么，但是如果我理解正确，这应该可以工作

xpath1 = "tbody/tr"
r = requests.post(url,data)
html = lxml.html.fromstring(r.text)
rows = html.xpath(xpath1)
data = list()
for row in rows:
    data.append([c.text for c in row.getchildren()])

不过，这是一个项目列表，如下所示：

[['Smth1'], ['Smth2'], ['Smth3'], ['Smth4']]

要有一个简单的值列表，可以使用以下代码

xpath1 = "tbody/tr/*/text()"
r = requests.post(url,data)
html = lxml.html.fromstring(r.text)
data = html.xpath(xpath1)

这都是假设r.text正是你在上面贴的。

相关问题更多 >

编程相关推荐

热门问题

热门文章