回答此问题可获得 20 贡献值,回答如果被采纳可获得 50 分。
<p>我试着写这个蜘蛛已经好几个星期了,但是没有成功。用Python编写代码的最佳方法是:</p>
<p>1)初始url:<code>http://www.whitecase.com/Attorneys/List.aspx?LastName=A</code></p>
<p>2)从初始url使用此正则表达式获取这些url:</p>
<p><code>hxs.select('//td[@class="altRow"][1]/a/@href').re('/.a\w+')</code></p>
<pre><code>[u'/cabel', u'/jacevedo', u'/jacuna', u'/aadler', u'/zahmedani', u'/tairisto', u
/zalbert', u'/salberts', u'/aaleksandrova', u'/malhadeff', u'/nalivojvodic', u'
....
</code></pre>
<p>3)转到这些URL中的每一个,并使用此regex刮取学校信息</p>
<p><code>hxs.select('//td[@class="mainColumnTDa"]').re('(?<=(JD,\s))(.*?)(\d+)'</code></p>
<p><code>[u'JD, ', u'University of Florida Levin College of Law, <em>magna cum laude</em>
, Order of the Coif, Symposium Editor, Florida Law Review, Awards for highest
grades in Comparative Constitutional History, Legal Drafting, Real Property and
Sales, ', u'2007']</code></p>
<p>4)将刮掉的学校信息写入schools.csv文件</p>
<p>你能帮我用Python写这个蜘蛛吗?我一直想用蹩脚的语言写,但没有成功。看我以前的<a href="https://stackoverflow.com/questions/1805050/scrapy-spider-index-error">question</a>。</p>
<p>谢谢你。</p>