随机抽取GitHub仓库
我想找个办法从Github上随机抽取一些仓库。最后的目的是对这些样本进行数据分析。
我想做的是根据仓库的ID来抽样:从0到270万之间随机选一个整数,然后找到对应的仓库。拿到用户名和仓库名后,我会用API来获取详细信息。
问题是我不知道怎么通过仓库ID来搜索。有没有什么建议?我对网络爬虫或者Python的解决方案都很感兴趣。
1 个回答
2
你可以用Python来访问GitHub的V3接口(就像在“最适合的Python库用于GitHub API v3”中提到的那样)。
你还可以从某个特定的ID来访问GitHub上的仓库(使用GET /repositories
,并把你最后看到的仓库的整数ID作为参数传入:这样就可以通过ID间接访问这些仓库)。