擅长:python、mysql、java
<p>看起来你可以直接从属和种生成url,即</p>
<p>虹鳟(oncorhynchus mykiss)变成</p>
<pre><code>http://www.fishbase.ca/summary/Oncorhynchus-mykiss.html
</code></pre>
<p>所以有点像</p>
^{pr2}$
<p>从页面源代码来看,html是非常不敏感的;虽然用正则表达式解析html是邪恶和可怕的,但我真的认为这是这种情况下最简单的方法:</p>
<pre><code>import re
fishlength = re.compile("max length : ([\d.]+) ([cm]{1,2})", re.I).search
def get_length_in_cm(html):
m = fishlength(html)
if m: # match found
value = float(m.group(1))
unit = m.group(2)
if unit == "cm":
return value
elif unit == "m":
return value * 100.
else:
raise ValueError("Unknown unit: {}".format(unit))
else:
raise ValueError("Length not found")
</code></pre>
<p>然后抓住每一页</p>
^{4}$