为机器学习问题创建图像数据集的工具,可以通过删除谷歌、必应和百度等搜索引擎。

datasetscraper的Python项目详细描述


数据集scraper

这个工具通过抓取谷歌、必应和百度等搜索引擎为机器学习问题创建图像数据集。

功能:

  • 搜索引擎支持:谷歌、必应、百度。(制作中):雅虎、Yandex、DuckDuckgo
  • 图像格式支持:jpg、png、svg、gif、jpeg
  • 支持快速多处理的刮刀
  • 非常快速的多线程下载程序
  • 图像文件断言下载后的数据验证

安装

  • 即将在PYPI上发布

用法:

  • 进口 from datasetscraper import Scraper

  • 默认值

obj=Scraper()urls=obj.fetch_urls('kiniro mosaic')obj.download(urls,directory='kiniro_mosaic/')
  • 指定搜索引擎
obj=Scraper()urls=obj.fetch_urls('kiniro mosaic',engine=['google'])obj.download(urls,directory='kiniro_mosaic/')
  • 指定搜索引擎列表
obj=Scraper()urls=obj.fetch_urls('kiniro mosaic',engine=['google','bing'])obj.download(urls,directory='kiniro_mosaic/')
  • 指定最大图像数(默认值为200)
obj=Scraper()urls=obj.fetch_urls('kiniro mosaic',engine=['google','bing'],maxlist=[500,300])obj.download(urls,directory='kiniro_mosaic/')

常见问题

  • 为什么Yandex、Yahoo、DuckDuckgo和其他搜索引擎不受支持? 它们很难擦掉,我正在研究,会尽快更新。

  • 我设置maxlist=[500]为什么只下载(x<;500)个图像? 这可能有几个原因:

    • 搜索耗尽:这种情况经常发生,google/bing可能没有足够的图片供您查询
    • 慢速上网:增加超时时间(默认为60秒),如下所示:obj.download(urls, directory='kiniro_mosaic/', timeout=100)
  • 如何调试? 您可以在创建scraper对象时更改日志记录级别:obj = Scraper(logger.INFO)

待办事项:

  • 更多搜索引擎
  • 更好的调试
  • 编写文档
  • 文本数据?音频数据?

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
junit有没有办法在Java中重新初始化静态类?   在浏览器中点击应用程序时java Play框架挂起   文件Java错误中的NullPointerException   使用Java中的SNMP查找网络中计算机的登录名   java包装服务器引导程序已弃用,有什么替代方案?   当客户在等待理发时,java信号量值是否存在问题?   java如何使用JavaMail仅下载特定类型的附件   如何在java中将十进制转换为十六进制   java Slick2D粒子系统不会生成粒子   java检测更改事件来自何处   将Java集合类型参数类设置为数组   java如何从eclipse导出为可运行JAR文件?   java EntityManager对象未注入Glassfish和Spring   swing从actionPerformed和actionListener Java返回字符串   java在给定另一个等价键对象的情况下获取映射项的当前键   无论输入如何,java网络都会产生相同的输出