有没有更好的方法通过Python访问Twitter流API?

0 投票
2 回答
1086 浏览
提问于 2025-04-17 03:09

我需要获取一些特定关键词的推特历史数据。推特的搜索API只能返回不超过9天的推文,所以这个方法不行。我现在使用的是Tweepy库(http://code.google.com/p/tweepy/)来调用流式API,整体上运行得还不错,但就是速度太慢了。比如,当我搜索“$GOOG”时,有时候两个结果之间要等超过一个小时。肯定有包含这个关键词的推文,但返回结果的速度实在太慢了。

这可能是什么问题呢?是流式API本身慢,还是我访问它的方法有问题?有没有什么更好的方法可以免费获取这些数据呢?

2 个回答

0

流式API的速度很快,你一发消息就能立刻收到。我们使用的是twitter4j这个工具。不过,流式工具只会传送当前的消息,所以如果你在发推的时候没有在监听这个流式工具,那么你的消息就会丢失。

1

你需要回溯多久的数据呢?如果想获取历史数据,你可以让数据流一直保持开启(流式API是支持的),然后把这些数据存储到本地,之后再从你的数据库里提取历史数据。

我也用Tweepy来进行实时数据流和过滤,它的效果很好。一般来说,延迟通常小于1秒,而且Tweepy能够处理大量的数据流。

撰写回答