从github搜索和获取代码的工具
bigcode-fetcher的Python项目详细描述
#bigcode获取程序
从github搜索和获取代码的实用程序。 此工具是为了轻松创建用于存储库分析的数据集而构建的。
该工具分两个阶段工作,搜索使用github api查找存储库, 并将结果保存到json文件中。下载获取所有存储库 在json文件中。
##安装
可以通过运行来安装此工具
` pip install bigcode-fetcher `
或者获取此存储库并运行
` pip install . `
在这个目录中。
##用法
###搜索命令
默认情况下,该实用程序搜索满足以下条件的存储库
- 大小介于1米和100米之间
- 星星计数>;10
- 非病毒性许可证(MIT、Apache-2.0、MPL-2.0、BSD-2-条款、BSD-3-条款、BSD-4-条款、MS-PL)
并检索前100个项目,按星数排序。
为了避免API速率限制,访问令牌可以与–令牌一起提供 cli参数或带有github_标记的环境变量。
请参阅帮助以查看所有选项:
` bigcode-fetcher search -h `
####示例
搜索所有用java编写的apache commons项目
` mkdir -papache-common-projectsbigcode-fetcher search --language Java --user apache --stars '>0' --keyword commons --max-repos 500 -oapache-common-projects/apache-commons.json `
###下载命令
这个命令将简单地git clone中的所有存储库 json由search命令生成。
为了减小下载大小,默认情况下只获取最新版本(即git clone–depth 1)。这可以通过传入–full标志来禁用。
用户名/repo将在输出目录/username/repo中获取,其中 输出目录由–输出选项设置。
如果目录已经存在,命令将忽略该项目; 因此多次运行该命令是安全的,建议 当然,所有的存储库都被提取出来了。
有关详细信息,请参阅帮助:
` bigcode-fetcher download -h `
####示例
下载上面生成的所有apache commons项目
` mkdir -papache-common-projects/repositoriesbigcode-fetcher download -iapache-common-projects/apache-commons.json-oapache-common-projects/repositories `