爬取图像、完整网页并缓存
我正在开始一个项目,想了解一下图片中的字符和这些图片所在的整个网页之间的关系。
我想抓取一些图片和它们所在的网页。我需要把抓取的结果保存在本地硬盘上,以便后续分析。我想知道有没有什么开源的工具可以解决这个问题?
2 个回答
0
你可以使用 crawler4j 来实现这个功能。它是一个简单的Java爬虫,配置起来只需要几分钟,而且你也可以用它来抓取图片。在源代码里,你还可以找到一个名为ImageCrawler的示例。
1
这里有一个开源爬虫的列表,
你可以在这个链接找到更多信息:http://www.google.co.uk/#hl=en&source=hp&q=open+source+web+crawler&aq=f&aqi=g9g-m1&aql=&oq=&gs_rfai=&fp=77130048d7e0701a
在这个列表的前面,有一些用Java写的爬虫,维基百科的文章里也有更多相关的信息。