如何用Python爬取网站/提取数据到数据库？

12 投票

4 回答

68518 浏览

数据工程师

提问于 2025-04-17 07:26

我想做一个网页应用，帮助我大学的其他同学制定课程表。为此，我需要从一个很大的网页上抓取主课程表，以及每门课程的详细描述链接，然后把这些信息存到数据库里，最好是用Python来实现。此外，我还需要登录才能访问这些数据。

这个过程是怎么进行的呢？
我可以使用哪些工具或库？
有没有好的教程可以参考？
我该如何处理二进制数据（比如漂亮的PDF文件）？
有没有现成的好解决方案？

数据提取网页应用开发数据库存储网页爬虫登录认证二进制数据处理课程表生成

4 个回答

我很喜欢用BeautifulSoup来提取HTML数据。

这操作简单得很：

from BeautifulSoup import BeautifulSoup 
import urllib

ur = urllib.urlopen("http://pragprog.com/podcasts/feed.rss")
soup = BeautifulSoup(ur.read())
items = soup.findAll('item')

urls = [item.enclosure['url'] for item in items]

回答于 2025-04-17 由 Python大师

分享举报

Scrapy 是一个非常棒的 Python 库，用来抓取网页数据。它可以记住你登录后的状态，这样你就可以在需要登录的网站上获取数据了。

处理二进制数据（比如图片、音频等）需要单独对待。不同类型的文件，你需要用不同的方法来处理，具体要根据你的需求来决定。几乎任何格式的文件，你都能找到相应的库来帮助你。例如，如果你想处理 PDF 文件，可以看看 PyPDF；如果是 Excel 文件，可以试试 xlrd。

回答于 2025-04-17 由 Python大师

分享举报

requests 是用来下载网页的工具。
- 这里有一个示例，教你如何登录一个网站并下载网页： https://stackoverflow.com/a/8316989/311220
lxml 是用来提取数据的工具。

如果你想使用一个功能强大的数据抓取框架，可以试试 Scrapy。它的文档也很不错。不过，根据你的任务，可能会觉得它有点复杂。

回答于 2025-04-17 由 Python大师

分享举报

如何用Python爬取网站/提取数据到数据库？

4 个回答

撰写回答