从github搜索和获取代码的工具

bigcode-fetcher的Python项目详细描述


#bigcode获取程序

从github搜索和获取代码的实用程序。 此工具是为了轻松创建用于存储库分析的数据集而构建的。

该工具分两个阶段工作,搜索使用github api查找存储库, 并将结果保存到json文件中。下载获取所有存储库 在json文件中。

##安装

可以通过运行来安装此工具

` pip install bigcode-fetcher `

或者获取此存储库并运行

` pip install . `

在这个目录中。

##用法

###搜索命令

默认情况下,该实用程序搜索满足以下条件的存储库

  • 大小介于1米和100米之间
  • 星星计数>;10
  • 非病毒性许可证(MIT、Apache-2.0、MPL-2.0、BSD-2-条款、BSD-3-条款、BSD-4-条款、MS-PL)

并检索前100个项目,按星数排序。

为了避免API速率限制,访问令牌可以与–令牌一起提供 cli参数或带有github_标记的环境变量。

请参阅帮助以查看所有选项:

` bigcode-fetcher search -h `

####示例

搜索所有用java编写的apache commons项目

` mkdir -papache-common-projectsbigcode-fetcher search --language Java --user apache --stars '>0' --keyword commons --max-repos 500 -oapache-common-projects/apache-commons.json `

###下载命令

这个命令将简单地git clone中的所有存储库 jsonsearch命令生成。

为了减小下载大小,默认情况下只获取最新版本(即git clone–depth 1)。这可以通过传入–full标志来禁用。

用户名/repo将在输出目录/username/repo中获取,其中 输出目录–输出选项设置。

如果目录已经存在,命令将忽略该项目; 因此多次运行该命令是安全的,建议 当然,所有的存储库都被提取出来了。

有关详细信息,请参阅帮助:

` bigcode-fetcher download -h `

####示例

下载上面生成的所有apache commons项目

` mkdir -papache-common-projects/repositoriesbigcode-fetcher download -iapache-common-projects/apache-commons.json-oapache-common-projects/repositories `

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
字符串Java字母替换无效   java Spring Roo JPA MS SQL Server无法打开JPA EntityManager组织。冬眠例外GenericJDBCException:无法打开连接   在scala中使用JavaWS对大型数据文件进行java流式处理   Java编译器是否将字节和短字符识别为文本?   java无法查找符号错误,空指针   mongodb在Java中重用数据库连接   java将多个StringArray从字符串文件获取到活动中   java是一个变量,它只保存最后一次鼠标单击的坐标   c#尺寸有限;添加、删除和洗牌   java如何在Android中显示来自资产文件夹的文本文件中的文本   Android应用程序中的java Tensorflow Lite自定义对象检测模型错误   java如何在foreachloop中使用scanner将来自命令行的输入存储到数组中   java如何定义一个好的存储库接口   Android中的java解析动态json对象