如何抓取大量推文

4 投票

2 回答

7525 浏览

提问于 2025-04-17 03:03

我正在用Python做一个项目，需要抓取大量的Twitter数据。比如说，要抓取大约100万个用户及他们所有的推文。

之前我用过Tweepy和Twython这两个工具，但很快就遇到了Twitter的限制。

像情感分析公司之类的，他们是怎么获取数据的呢？他们是怎么拿到那么多推文的？是从哪里购买这些数据，还是自己搭建了什么东西，通过不同的代理来抓取数据呢？

像Infochimps这样的公司，比如Trst rank，他们又是怎么获得所有这些数据的呢？ * http://www.infochimps.com/datasets/twitter-census-trst-rank

数据抓取数据集情感分析网络代理 twython tweepy Twitter数据数据购买

2 个回答

我不知道这是否适合你想做的事情，但最近发布了一个叫做Tweets2011的数据集。

根据描述：

作为TREC 2011微博客项目的一部分，Twitter提供了大约1600万条推文的标识，这些推文是在2011年1月23日到2月8日之间采样的。这个数据集旨在成为一个可重复使用的、具有代表性的推文样本——也就是说，里面包含了重要的推文和一些垃圾推文。

回答于 2025-04-17 由 Python大师

分享举报

如果你想获取特定用户的最新推文，Twitter提供了一个叫做流媒体API的工具。

流媒体API可以实时获取Twitter上的信息，就像是Twitter的“火hose”。这个API适合那些需要大量数据的开发者。如果你想做一个数据挖掘产品或者对分析研究感兴趣，流媒体API是最合适的选择。

如果你想获取旧的信息，那么就只能使用REST API，不过它的请求限制非常严格。

回答于 2025-04-17 由 Python大师

分享举报