擅长:python、mysql、java
<p>这个html格式有点不正确,xml.dom.minidom无法解析,而且美化了组解析的效果。</p>
<p>我删除了一些<code><!-- ... --></code>部分,并使用BeautiFulSoup重新解析,然后它看起来更好,并且能够运行<code>soup.find('p', attrs={'class' : 'lead'})</code></p>
<p>这是我试过的密码</p>
<pre><code>>>> html =re.sub(re.compile("<!--.*?-->",re.DOTALL),"",html)
>>>
>>> soup=BeautifulSoup(html)
>>>
>>> soup.find('p', attrs={'class' : 'lead'})
<p class="lead">The class of exotic Jupiter-mass planets that orb .....
</code></pre>