随机抽取GitHub仓库

3 投票
1 回答
2362 浏览
提问于 2025-04-17 16:57

我想找个办法从Github上随机抽取一些仓库。最后的目的是对这些样本进行数据分析。

我想做的是根据仓库的ID来抽样:从0到270万之间随机选一个整数,然后找到对应的仓库。拿到用户名和仓库名后,我会用API来获取详细信息。

问题是我不知道怎么通过仓库ID来搜索。有没有什么建议?我对网络爬虫或者Python的解决方案都很感兴趣。

1 个回答

2

你可以用Python来访问GitHub的V3接口(就像在“最适合的Python库用于GitHub API v3”中提到的那样)。

你还可以从某个特定的ID来访问GitHub上的仓库(使用GET /repositories,并把你最后看到的仓库的整数ID作为参数传入:这样就可以通过ID间接访问这些仓库)。

撰写回答