为机器学习问题创建图像数据集的工具,可以通过删除谷歌、必应和百度等搜索引擎。

datasetscraper的Python项目详细描述


数据集scraper

这个工具通过抓取谷歌、必应和百度等搜索引擎为机器学习问题创建图像数据集。

功能:

  • 搜索引擎支持:谷歌、必应、百度。(制作中):雅虎、Yandex、DuckDuckgo
  • 图像格式支持:jpg、png、svg、gif、jpeg
  • 支持快速多处理的刮刀
  • 非常快速的多线程下载程序
  • 图像文件断言下载后的数据验证

安装

  • 即将在PYPI上发布

用法:

  • 进口 from datasetscraper import Scraper

  • 默认值

obj=Scraper()urls=obj.fetch_urls('kiniro mosaic')obj.download(urls,directory='kiniro_mosaic/')
  • 指定搜索引擎
obj=Scraper()urls=obj.fetch_urls('kiniro mosaic',engine=['google'])obj.download(urls,directory='kiniro_mosaic/')
  • 指定搜索引擎列表
obj=Scraper()urls=obj.fetch_urls('kiniro mosaic',engine=['google','bing'])obj.download(urls,directory='kiniro_mosaic/')
  • 指定最大图像数(默认值为200)
obj=Scraper()urls=obj.fetch_urls('kiniro mosaic',engine=['google','bing'],maxlist=[500,300])obj.download(urls,directory='kiniro_mosaic/')

常见问题

  • 为什么Yandex、Yahoo、DuckDuckgo和其他搜索引擎不受支持? 它们很难擦掉,我正在研究,会尽快更新。

  • 我设置maxlist=[500]为什么只下载(x<;500)个图像? 这可能有几个原因:

    • 搜索耗尽:这种情况经常发生,google/bing可能没有足够的图片供您查询
    • 慢速上网:增加超时时间(默认为60秒),如下所示:obj.download(urls, directory='kiniro_mosaic/', timeout=100)
  • 如何调试? 您可以在创建scraper对象时更改日志记录级别:obj = Scraper(logger.INFO)

待办事项:

  • 更多搜索引擎
  • 更好的调试
  • 编写文档
  • 文本数据?音频数据?

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
与SpringJPA相比,JavaHazelcast内存数据网格非常慢   java如何从Netbeans从命令行创建的ant项目运行单个junit测试?   java多个eclipse概要文件   java集合存储值还是引用?   java从两个自定义对象列表中删除公共元素   java密钥库、HttpClient和HTTPS:有人能给我解释一下这段代码吗?   java使用Appengine中的域别名帐户发送电子邮件   java如何在安卓中获得用户定义的“设备名称”?   java错误:包com。太阳工具。javac。util不存在   导出后Java Eclipse项目出现问题   组织。openqa。硒。WebDriverException:java。网ConnectException:无法连接到本地主机/0:0:0:0:0:0:0   java在字符串中追加文本   java在Pig中按名称获取字段?   java如何打印播放中对象的值   Java静态修饰符对运行时性能有积极影响吗?   Java计时器   java是否值得线程化一个需要1秒才能完成的操作?