为机器学习问题创建图像数据集的工具,可以通过删除谷歌、必应和百度等搜索引擎。
datasetscraper的Python项目详细描述
数据集scraper
这个工具通过抓取谷歌、必应和百度等搜索引擎为机器学习问题创建图像数据集。
功能:
- 搜索引擎支持:谷歌、必应、百度。(制作中):雅虎、Yandex、DuckDuckgo
- 图像格式支持:jpg、png、svg、gif、jpeg
- 支持快速多处理的刮刀
- 非常快速的多线程下载程序
- 图像文件断言下载后的数据验证
安装
- 即将在PYPI上发布
用法:
进口
from datasetscraper import Scraper
默认值
obj=Scraper()urls=obj.fetch_urls('kiniro mosaic')obj.download(urls,directory='kiniro_mosaic/')
- 指定搜索引擎
obj=Scraper()urls=obj.fetch_urls('kiniro mosaic',engine=['google'])obj.download(urls,directory='kiniro_mosaic/')
- 指定搜索引擎列表
obj=Scraper()urls=obj.fetch_urls('kiniro mosaic',engine=['google','bing'])obj.download(urls,directory='kiniro_mosaic/')
- 指定最大图像数(默认值为200)
obj=Scraper()urls=obj.fetch_urls('kiniro mosaic',engine=['google','bing'],maxlist=[500,300])obj.download(urls,directory='kiniro_mosaic/')
常见问题
为什么Yandex、Yahoo、DuckDuckgo和其他搜索引擎不受支持? 它们很难擦掉,我正在研究,会尽快更新。
我设置maxlist=[500]为什么只下载(x<;500)个图像? 这可能有几个原因:
- 搜索耗尽:这种情况经常发生,google/bing可能没有足够的图片供您查询
- 慢速上网:增加超时时间(默认为60秒),如下所示:
obj.download(urls, directory='kiniro_mosaic/', timeout=100)
如何调试? 您可以在创建scraper对象时更改日志记录级别:
obj = Scraper(logger.INFO)
待办事项:
- 更多搜索引擎
- 更好的调试
- 编写文档
- 文本数据?音频数据?