擅长:python、mysql、java
<p>不要使用regex,使用HTML解析器,例如<a href="http://www.crummy.com/software/BeautifulSoup/" rel="nofollow noreferrer">BeautifulSoup</a>:</p>
<pre><code>html = '<html><body>foo<tr>bar</tr>baz<tr>qux</tr></body></html>'
import BeautifulSoup
soup = BeautifulSoup.BeautifulSoup(html)
print soup.findAll("tr")
</code></pre>
<p>结果:</p>
<pre><code>[<tr>bar</tr>, <tr>qux</tr>]
</code></pre>
<p>如果只需要内容,而不需要tr标记:</p>
<pre><code>for tr in soup.findAll("tr"):
print tr.contents
</code></pre>
<p>结果:</p>
<pre><code>bar
qux
</code></pre>
<p>使用HTML解析器并不像听起来那么可怕!它将比任何将在这里发布的regex更可靠。</p>