Python 网页爬虫及存储到 MySQL

1 投票
1 回答
2339 浏览
提问于 2025-04-16 06:04

我需要一个用Python写的好用的网页爬虫,能够把完整的网页存储到MySQL数据库里。我现在在实验一个小系统,使用的是PHP的Sphider来爬取网页并存储到数据库里。我需要一个和Sphider功能几乎一样,但用Python写的工具。我的目标就是把数据存到数据库的表里,然后其他脚本可以从中提取内容,完成我需要的工作。Sphider运行太慢了,我想换掉它。

所以,我看了Scrapy和其他一些项目,但都不太符合我的需求。这是我最后一次尝试,如果有人知道有什么可以解决我这个问题的工具,请告诉我。

1 个回答

0

注意!

这个回答是为初学者准备的,并不是最优或最聪明的解决方案。

不过我强烈推荐你使用scrapy。可以试试它的教程。

记得使用Firefox浏览器和Firebug扩展,这样你可以更好地浏览和了解你数据的内部路径xpathshtml位置,以便后续解析。

你也可以看看类似的问题,比如"从Ruby转到Python爬虫"和"Python读取我的Outlook邮箱并解析邮件"。

节省时间,使用Firefox和Firebug扩展(启用inspect功能)。

撰写回答