如何抓取大量推文

4 投票
2 回答
7525 浏览
提问于 2025-04-17 03:03

我正在用Python做一个项目,需要抓取大量的Twitter数据。比如说,要抓取大约100万个用户及他们所有的推文。

之前我用过Tweepy和Twython这两个工具,但很快就遇到了Twitter的限制。

像情感分析公司之类的,他们是怎么获取数据的呢?他们是怎么拿到那么多推文的?是从哪里购买这些数据,还是自己搭建了什么东西,通过不同的代理来抓取数据呢?

像Infochimps这样的公司,比如Trst rank,他们又是怎么获得所有这些数据的呢? * http://www.infochimps.com/datasets/twitter-census-trst-rank

2 个回答

7

我不知道这是否适合你想做的事情,但最近发布了一个叫做Tweets2011的数据集。

根据描述:

作为TREC 2011微博客项目的一部分,Twitter提供了大约1600万条推文的标识,这些推文是在2011年1月23日到2月8日之间采样的。这个数据集旨在成为一个可重复使用的、具有代表性的推文样本——也就是说,里面包含了重要的推文和一些垃圾推文。

7

如果你想获取特定用户的最新推文,Twitter提供了一个叫做流媒体API的工具。

流媒体API可以实时获取Twitter上的信息,就像是Twitter的“火hose”。这个API适合那些需要大量数据的开发者。如果你想做一个数据挖掘产品或者对分析研究感兴趣,流媒体API是最合适的选择。

如果你想获取的信息,那么就只能使用REST API,不过它的请求限制非常严格。

撰写回答