每日优惠聚合网站如何获取不同优惠网站的数据?

1 投票
2 回答
1006 浏览
提问于 2025-04-16 22:57

我在想,日常优惠聚合网站是怎么从不同的优惠网站上抓取数据的?我见过很多优惠网站并没有提供API和RSS订阅功能,但这些聚合网站还是能从中提取数据。
这里有一些我提到的网站:

http://www.thedealmap.com/

http://www.dealmandi.com/

2 个回答

1

当我创建LesserThan - http://lesserthan.com - 时,我发现大多数的API或者RSS源都是不公开的。只有在你注册了一个合作伙伴账户后,他们才会给你RSS源的链接。

5

如果这个网站没有提供任何API或者RSS订阅源,我们还是可以用“老派”的方法来提取数据。具体来说,就是访问那些包含我们需要信息的页面,然后从返回的HTML中提取数据。

Python中,我们可以使用urllib2或者requests来访问这些页面,然后用lxml或者BeautifulSoup来从HTML中提取数据。如果你要做更大的项目,可以试试scrapy这个框架,它提供了所有工具来编写复杂的爬虫程序。

撰写回答