每日优惠聚合网站如何获取不同优惠网站的数据?
我在想,日常优惠聚合网站是怎么从不同的优惠网站上抓取数据的?我见过很多优惠网站并没有提供API和RSS订阅功能,但这些聚合网站还是能从中提取数据。
这里有一些我提到的网站:
2 个回答
1
当我创建LesserThan - http://lesserthan.com - 时,我发现大多数的API或者RSS源都是不公开的。只有在你注册了一个合作伙伴账户后,他们才会给你RSS源的链接。
5
如果这个网站没有提供任何API或者RSS订阅源,我们还是可以用“老派”的方法来提取数据。具体来说,就是访问那些包含我们需要信息的页面,然后从返回的HTML中提取数据。
在Python
中,我们可以使用urllib2
或者requests
来访问这些页面,然后用lxml
或者BeautifulSoup
来从HTML中提取数据。如果你要做更大的项目,可以试试scrapy
这个框架,它提供了所有工具来编写复杂的爬虫程序。