推特数据挖掘:分离度
我可以用哪些现成的算法来挖掘推特上的数据,以找出两个推特用户之间的关系程度。
当社交网络图不断变化和更新时,这个过程会有什么不同。
另外,有没有推特社交网络数据的下载文件可以使用,这样我就不用频繁地调用API从头开始了。
3 个回答
可能还有其他方法可以做到这一点,但我刚花了10分钟在类似的事情上,偶然发现了这个问题。
我会使用一个无向图(还有权重,因为我想考虑位置),可以在Python中使用JgraphT或类似的库;JGraphT是基于Java的,但里面有很多现成的算法。
然后你可以使用一个叫做BellmanFord的算法;它接受一个整数输入,并在图中寻找最短路径,只考虑这个整数输入,而不像Dijkstra算法那样。
http://en.wikipedia.org/wiki/Bellman%E2%80%93Ford_algorithm
我最近在一个航班路线项目中用过这个算法,反复计算以找到最短的路径和最少的“跳跃”(边)。
来自 Twitter API
数据挖掘接口 是我们 /statuses/public_timeline 这个API方法的扩展版。它会返回最近600条公开的状态信息,每次缓存一分钟。你可以每分钟请求一次,以获取Twitter上公开状态的代表性样本。我们免费提供这个接口给研究人员和爱好者使用(但不保证服务质量)。我们只希望你能简单描述一下你的研究或项目,以及你将要请求数据的IP地址;只需填写这个表格即可。请注意,数据挖掘接口并不是用来提供Twitter上所有公开更新的连续流;有关即将推出的“火hose”解决方案的更多信息,请查看上面的内容。
还可以查看: 流式API文档
有一家公司曾经提供社交网络的数据下载,但现在这个服务已经关闭,不再提供了。正如你所发现的,这种数据其实很难获取,因为它一直在变化。
我建议你看看他们的社交网络图的API方法,因为这些方法能用最少的请求获取到最多的信息。