Python网页爬虫与MySQL数据库
我想创建或者找到一个用Python写的开源网络爬虫(也叫蜘蛛或机器人)。这个爬虫需要能够找到并跟踪链接,收集网页的元标签、元描述、标题和网页的URL,并把所有这些数据存入MySQL数据库里。
有没有人知道有什么开源的脚本可以帮助我?另外,如果有人能给我一些建议该怎么做,那就太好了。
3 个回答
3
Scrapy 是一个用于网络爬虫和数据抓取的框架,你可以用它把选中的数据放到数据库里。
它有点像 Django 框架的反向操作。
4
是的,我知道,
一些库
https://github.com/djay/transmogrify.webcrawler
http://code.google.com/p/harvestman-crawler/
http://code.activestate.com/pypm/orchid/
开源的网络爬虫
教程
http://www.example-code.com/python/pythonspider.asp
顺便说一下,我不知道他们是否使用mysql,因为通常Python要么用sqlite,要么用postgresql,所以如果你想的话,可以使用我给你的库,导入python-mysql模块来实现 :D