我在使用JSoup和BeautifulSoup解析网页后得到的HTML内容与下面所示的不同。有没有人有同样的问题,你能告诉我采取了什么措施来解决这个问题吗?在
检查每个区块的第三行-
=======JSoup
<div class="col-full">
<p><strong>Index Notifications</strong></p>
<p></p><br>
<p> <br /> <b> March 28, 2014</b>
<br >
<br >
=======BeautiulSoup公司
^{pr2}$
Tags:
在解析损坏的HTML时,不同的解析器将尝试以不同的方式修复损坏的标记;对于如何处理此类错误,没有硬性规定。在
BeautifulSoup可以make use of different parsers,并且每个人都将以不同的方式处理您的内容:
html5lib
解析器是最慢的,但通常会像大多数浏览器一样解析损坏的HTML。lxml
和{相关问题 更多 >
编程相关推荐