每日优惠聚合网站如何获取不同优惠网站的数据？

1 投票

2 回答

1006 浏览

提问于 2025-04-16 22:57

我在想，日常优惠聚合网站是怎么从不同的优惠网站上抓取数据的？我见过很多优惠网站并没有提供API和RSS订阅功能，但这些聚合网站还是能从中提取数据。
这里有一些我提到的网站：

数据聚合数据提取 api rss 数据抓取网页爬虫优惠信息

2 个回答

当我创建LesserThan - http://lesserthan.com - 时，我发现大多数的API或者RSS源都是不公开的。只有在你注册了一个合作伙伴账户后，他们才会给你RSS源的链接。

回答于 2025-04-16 由 Python大师

分享举报

如果这个网站没有提供任何API或者RSS订阅源，我们还是可以用“老派”的方法来提取数据。具体来说，就是访问那些包含我们需要信息的页面，然后从返回的HTML中提取数据。

在Python中，我们可以使用urllib2或者requests来访问这些页面，然后用lxml或者BeautifulSoup来从HTML中提取数据。如果你要做更大的项目，可以试试scrapy这个框架，它提供了所有工具来编写复杂的爬虫程序。

回答于 2025-04-16 由 Python大师

分享举报