Python datasetscraper包_程序模块 - PyPI

为机器学习问题创建图像数据集的工具，可以通过删除谷歌、必应和百度等搜索引擎。

datasetscraper的Python项目详细描述

数据集scraper

这个工具通过抓取谷歌、必应和百度等搜索引擎为机器学习问题创建图像数据集。

功能：

搜索引擎支持：谷歌、必应、百度。（制作中）：雅虎、Yandex、DuckDuckgo
图像格式支持：jpg、png、svg、gif、jpeg
支持快速多处理的刮刀
非常快速的多线程下载程序
图像文件断言下载后的数据验证

安装

即将在PYPI上发布

用法：

进口 from datasetscraper import Scraper
默认值

obj=Scraper()urls=obj.fetch_urls('kiniro mosaic')obj.download(urls,directory='kiniro_mosaic/')

指定搜索引擎

obj=Scraper()urls=obj.fetch_urls('kiniro mosaic',engine=['google'])obj.download(urls,directory='kiniro_mosaic/')

指定搜索引擎列表

obj=Scraper()urls=obj.fetch_urls('kiniro mosaic',engine=['google','bing'])obj.download(urls,directory='kiniro_mosaic/')

指定最大图像数（默认值为200）

obj=Scraper()urls=obj.fetch_urls('kiniro mosaic',engine=['google','bing'],maxlist=[500,300])obj.download(urls,directory='kiniro_mosaic/')

常见问题

为什么Yandex、Yahoo、DuckDuckgo和其他搜索引擎不受支持？它们很难擦掉，我正在研究，会尽快更新。
我设置maxlist=[500]为什么只下载（x<；500）个图像？这可能有几个原因：
- 搜索耗尽：这种情况经常发生，google/bing可能没有足够的图片供您查询
- 慢速上网：增加超时时间（默认为60秒），如下所示：obj.download(urls, directory='kiniro_mosaic/', timeout=100)
如何调试？您可以在创建scraper对象时更改日志记录级别：obj = Scraper(logger.INFO)

待办事项：

更多搜索引擎
更好的调试
编写文档
文本数据？音频数据？

欢迎加入QQ群-->： 979659372

datasetscraper 0.0.4

datasetscraper的Python项目详细描述

数据集scraper

功能：

安装

用法：

常见问题

待办事项：

推荐PyPI第三方库

wxpython-piano-roll

mask-to-polygons

gnacsupdated

ledgerp

openProductionHW

nutrip

traffic-metrics

colorlover

djangouseragents

djangocarrot

daqpower

wsgiintercept

scicap

masonite-validation

discrete-signals

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

datasetscraper 0.0.4

datasetscraper的Python项目详细描述

数据集scraper

功能：

安装

用法：

常见问题

待办事项：

推荐PyPI第三方库

wxpython-piano-roll

mask-to-polygons

gnacsupdated

ledgerp

openProductionHW

nutrip

traffic-metrics

colorlover

djangouseragents

djangocarrot

daqpower

wsgiintercept

scicap

masonite-validation

discrete-signals

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签