Python网页爬虫与MySQL数据库

6 投票

3 回答

12963 浏览

提问于 2025-04-16 23:19

我想创建或者找到一个用Python写的开源网络爬虫（也叫蜘蛛或机器人）。这个爬虫需要能够找到并跟踪链接，收集网页的元标签、元描述、标题和网页的URL，并把所有这些数据存入MySQL数据库里。

有没有人知道有什么开源的脚本可以帮助我？另外，如果有人能给我一些建议该怎么做，那就太好了。

开源项目网络爬虫网页解析数据采集 MySQL数据库

3 个回答

Scrapy 是一个用于网络爬虫和数据抓取的框架，你可以用它把选中的数据放到数据库里。

它有点像 Django 框架的反向操作。

回答于 2025-04-16 由 Python大师

分享举报

我建议你使用Scrapy，这是一个强大的抓取框架，基于Twisted和lxml。它特别适合你想做的那种任务，里面有基于正则表达式的规则来跟踪链接，还可以用正则表达式或者XPath表达式从网页中提取数据。它还提供了所谓的“管道”，可以把数据导出到你想要的地方。

不过，Scrapy并没有内置的MySQL管道，但有人在这里写了一个，你可以以此为基础来创建自己的管道。

回答于 2025-04-16 由 Python大师

分享举报

是的，我知道，

一些库

开源的网络爬虫

教程

顺便说一下，我不知道他们是否使用mysql，因为通常Python要么用sqlite，要么用postgresql，所以如果你想的话，可以使用我给你的库，导入python-mysql模块来实现 :D

回答于 2025-04-16 由 Python大师

分享举报