提取文本中的HTML标签和数据。

import requests from HTMLParser import HTMLParser name = "Mark" surname = "Jacobs" def req_getPageHTML(nume, prenume): url = "http://sample.com/page.aspx&Name=" + name + "&surname=" + surname response = requests.get(url).text return response page_code = req_getPageHTML(nume, prenume) htmlp = HTMLParser() print htmlp.feed(page_code)

... <tr class="tr1" OnClick="lockBac();"> <td class="tdB" rowspan="2" nowrap="nowrap">1</td> <td class="tdB" rowspan="2" nowrap="nowrap">Jacobs D <br/>Mark</td> <td class="tdB" rowspan="2" align="Center">Math speciality</td> <td class="tdB" rowspan="2" align="Center">Advanced User</td> > <td class="tdB" rowspan="2" align="Center">6.95</td> > <td class="tdB" rowspan="2" align="Center">7.9</td> > <td class="tdB" rowspan="2" align="Center">7.9</td> <td class="tdB" colspan="4" align="Center"></td> <td class="tdB" rowspan="2" align="Center">English</td> <td class="tdB" rowspan="2" align="Center">B2-B2-B2-B2-B2</td> <td class="tdB" colspan="3" align="Center">Mathematics MATH-INFO</td> <td class="tdB" colspan="3" align="Center">Informatics</td> <td bgcolor="lightgreen" class="tdB" rowspan="2" align="Center"></td> <td class="tdB" rowspan="2" align="Center">8.88</td> <td class="tdB" rowspan="2" align="Center">Success</td> </tr> <tr class="tr1" OnClick="lockBac();"> <td class="tdB"></td> <td class="tdB"></td> <td class="tdB"></td> <td class="tdB"></td> > <td class="tdB">9.35</td> > <td class="tdB"></td> > <td class="tdB">9.35</td> > <td class="tdB">9.4</td> <td class="tdB"></td> > <td class="tdB">9.4</td> </tr> ...

1条回答

网友

1楼 · 发布于 2024-05-16 02:22:44

我不知道如何处理你尝试过的东西，但我有不同的方法。你知道吗

您可以获取lxml，这是一个python库，可以帮助您清除XML和HTML。似乎Requests也会对这个项目有所帮助。你知道吗

page = requests.get('http://www.example.com')
tree = html.fromstring(page.text)

tree变量现在包含所有html文档，您可以根据需要对其进行解析。使用Xpath会有如下结果

scores = tree.xpath('//td[@class="tdB"]/text()')

希望有帮助。你知道吗

source

相关问题更多 >

编程相关推荐

热门问题

热门文章