使用Python的HTML解析

from HTMLParser import HTMLParser class MyHTMLParser(HTMLParser): def handle_data(self, data): print "Data :", data f=open("result.html","r") s=f.read() parser = MyHTMLParser() parser.feed(s)

<tr class='trmenu1'> <td>Marks Obtained: </td><td colspan=1>75.67 Out of 100</td> </tr> <tr class='trmenu1'> <td>GATE Score: </td><td colspan=1>911</td> </tr> <tr class='trmenu1'> <td>All India Rank: </td><td colspan=1>34</td> </tr>

2条回答

网友

1楼 · 编辑于 2024-05-23 18:45:54

如果仔细查看mediafire上的html页面，您会发现有两个文本块包含“GATE Score”

 line 162: <tr><td class='qlink4' background='webimages/blkbuttona3.jpg' onMouseOut="background='webimages/blkbuttona3.jpg'" onMouseOver="background='webimages/blkbuttonb3.jpg'">&nbsp;<a class="dark2" href="gscore.php" title="GATE Score">GATE Score</a></td></tr>

 line 192: <tr class='trmenu1'><td>GATE Score: </td><td colspan=1>911</td></tr>

您遇到的问题可能是由于您试图解析的整个html页面中的错误造成的，这就是为什么您只能看到一个“GATE Score”出现的原因。

正如您在评论中所建议的，使用对格式错误的html更为宽容的BeautifulSoup。

网友

2楼 · 编辑于 2024-05-23 18:45:54

我分析HTML或XML的首选解决方案是lxml和xpath。

关于如何使用xpath的一个简单而肮脏的示例：

from lxml import etree
data = open('result.html','r').read()
doc = etree.HTML(data)

for tr in doc.xpath('//table/tr[@class="trmenu1"]'):
  print tr.xpath('./td/text()')

收益率：

['Registration Number: ', ' CS 2047103']
['Name of the Candidate: ', 'PATIL SANTOSH KUMARRAO        ']
['Examination Paper: ', 'CS - Computer Science and Information Technology']
['Marks Obtained: ', '75.67 Out of 100']
['GATE Score: ', '911']
['All India Rank: ', '34']
['No of Candidates Appeared in CS: ', '156780']
['Qualifying Marks for CS: ', '\r\n\t\t\t\t\t']
['General', 'OBC ', '(Non-Creamy)', 'SC / ST / PD ']
['31.54', '28.39', '21.03 ']

这段代码从HTML数据中创建一个ElementTree。使用xpath，它选择所有有class="trmenu1"属性的<tr>元素。然后为每个<tr>选择并打印任何<td>子级的文本。

相关问题更多 >

编程相关推荐

热门问题

热门文章