擅长:python、mysql、java
<p>@Anake这里有3个Pythonic包,它们提供了检索和解析的解决方案:</p>
<p>从他们的网站:</p>
<p>Beautiful Soup会解析您提供的任何内容,并为您执行树遍历操作。你可以告诉它“Find all links”,或“Find all the links of class externalLink”,或“Find all links which URL match”foo.com网站或者“找到有粗体文本的表标题,然后给我该文本。”<a href="http://www.crummy.com/software/BeautifulSoup/" rel="nofollow">1</a></p>
<p>在Andy Lester的Perl模块<a href="http://wwwsearch.sourceforge.net/mechanize/" rel="nofollow">2</a>之后,使用Python进行有状态编程式web浏览</p>
<p>Scrapy是一个快速的高级屏幕抓取和web爬行框架,用于抓取网站并从页面中提取结构化数据。它可以用于广泛的目的,从数据挖掘到监控和自动化测试。<a href="http://scrapy.org/" rel="nofollow">3</a></p>