使用Python的HTML解析问题的回答

使用Python的HTML解析

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我需要分析网页并从中提取一些值。所以我创建了一个python解析器，如下所示： <pre><code>from HTMLParser import HTMLParser class MyHTMLParser(HTMLParser): def handle_data(self, data): print "Data :", data f=open("result.html","r") s=f.read() parser = MyHTMLParser() parser.feed(s) </code></pre> 程序读取html文件并从中打印数据。 我传递了以下result.html，这里解析器工作正常 <pre><code><tr class='trmenu1'> <td>Marks Obtained: </td><td colspan=1>75.67 Out of 100</td> </tr> <tr class='trmenu1'> <td>GATE Score: </td><td colspan=1>911</td> </tr> <tr class='trmenu1'> <td>All India Rank: </td><td colspan=1>34</td> </tr> </code></pre> 在传递上述html之后，输出为： <blockquote> Data : Data : Marks Obtained: Data : 75.67 Out of 100 Data : Data : Data : Data : GATE Score: Data : 911 Data : Data : Data : Data : All India Rank: Data : 34 </blockquote> 但是解析器应该读取一个更大的文件，上面提到的代码只是这个大文件的一小部分。文件太大，无法粘贴到此处。所以我上传到了以下链接：<a href="http://www.mediafire.com/?dsgr1gdjvs59c7c" rel="nofollow">http://www.mediafire.com/?dsgr1gdjvs59c7c</a> 当传递较大的文件时，解析器不会读取所有条目，而在输出中留下一些空白条目。部分输出如下： <blockquote> Data : Syllabi Data : Data : GATE Score Data : Data : GATE Results Data : </blockquote> 观察门下分线的空白条目，前一次输出为911。 解析器可以处理小文件，但不能处理大文件为什么会这样？我正在使用Python2.7

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

使用Python的HTML解析

1 个回答

相关Python问题