Python 网页爬虫及存储到 MySQL
我需要一个用Python写的好用的网页爬虫,能够把完整的网页存储到MySQL数据库里。我现在在实验一个小系统,使用的是PHP的Sphider来爬取网页并存储到数据库里。我需要一个和Sphider功能几乎一样,但用Python写的工具。我的目标就是把数据存到数据库的表里,然后其他脚本可以从中提取内容,完成我需要的工作。Sphider运行太慢了,我想换掉它。
所以,我看了Scrapy和其他一些项目,但都不太符合我的需求。这是我最后一次尝试,如果有人知道有什么可以解决我这个问题的工具,请告诉我。
1 个回答
0
注意!
这个回答是为初学者准备的,并不是最优或最聪明的解决方案。
不过我强烈推荐你使用scrapy。可以试试它的教程。
记得使用Firefox浏览器和Firebug扩展,这样你可以更好地浏览和了解你数据的内部路径、xpaths和html位置,以便后续解析。
你也可以看看类似的问题,比如"从Ruby转到Python爬虫"和"Python读取我的Outlook邮箱并解析邮件"。
节省时间,使用Firefox和Firebug扩展(启用inspect
功能)。