Python网页爬虫与MySQL数据库

6 投票
3 回答
12963 浏览
提问于 2025-04-16 23:19

我想创建或者找到一个用Python写的开源网络爬虫(也叫蜘蛛或机器人)。这个爬虫需要能够找到并跟踪链接,收集网页的元标签、元描述、标题和网页的URL,并把所有这些数据存入MySQL数据库里。

有没有人知道有什么开源的脚本可以帮助我?另外,如果有人能给我一些建议该怎么做,那就太好了。

3 个回答

3

Scrapy 是一个用于网络爬虫和数据抓取的框架,你可以用它把选中的数据放到数据库里。

它有点像 Django 框架的反向操作。

4

我建议你使用Scrapy,这是一个强大的抓取框架,基于Twistedlxml。它特别适合你想做的那种任务,里面有基于正则表达式的规则来跟踪链接,还可以用正则表达式或者XPath表达式从网页中提取数据。它还提供了所谓的“管道”,可以把数据导出到你想要的地方。

不过,Scrapy并没有内置的MySQL管道,但有人在这里写了一个,你可以以此为基础来创建自己的管道。

4

是的,我知道,

一些库

https://github.com/djay/transmogrify.webcrawler

http://code.google.com/p/harvestman-crawler/

http://code.activestate.com/pypm/orchid/

开源的网络爬虫

http://scrapy.org/

教程

http://www.example-code.com/python/pythonspider.asp

顺便说一下,我不知道他们是否使用mysql,因为通常Python要么用sqlite,要么用postgresql,所以如果你想的话,可以使用我给你的库,导入python-mysql模块来实现 :D

http://sourceforge.net/projects/mysql-python/

撰写回答