如何抓取大量推文
我正在用Python做一个项目,需要抓取大量的Twitter数据。比如说,要抓取大约100万个用户及他们所有的推文。
之前我用过Tweepy和Twython这两个工具,但很快就遇到了Twitter的限制。
像情感分析公司之类的,他们是怎么获取数据的呢?他们是怎么拿到那么多推文的?是从哪里购买这些数据,还是自己搭建了什么东西,通过不同的代理来抓取数据呢?
像Infochimps这样的公司,比如Trst rank,他们又是怎么获得所有这些数据的呢? * http://www.infochimps.com/datasets/twitter-census-trst-rank
2 个回答
7
我不知道这是否适合你想做的事情,但最近发布了一个叫做Tweets2011的数据集。
根据描述:
作为TREC 2011微博客项目的一部分,Twitter提供了大约1600万条推文的标识,这些推文是在2011年1月23日到2月8日之间采样的。这个数据集旨在成为一个可重复使用的、具有代表性的推文样本——也就是说,里面包含了重要的推文和一些垃圾推文。
7
如果你想获取特定用户的最新推文,Twitter提供了一个叫做流媒体API的工具。
流媒体API可以实时获取Twitter上的信息,就像是Twitter的“火hose”。这个API适合那些需要大量数据的开发者。如果你想做一个数据挖掘产品或者对分析研究感兴趣,流媒体API是最合适的选择。
如果你想获取旧的信息,那么就只能使用REST API,不过它的请求限制非常严格。