爬取图像、完整网页并缓存

0 投票
2 回答
2759 浏览
提问于 2025-04-16 00:02

我正在开始一个项目,想了解一下图片中的字符和这些图片所在的整个网页之间的关系。

我想抓取一些图片和它们所在的网页。我需要把抓取的结果保存在本地硬盘上,以便后续分析。我想知道有没有什么开源的工具可以解决这个问题?

2 个回答

0

你可以使用 crawler4j 来实现这个功能。它是一个简单的Java爬虫,配置起来只需要几分钟,而且你也可以用它来抓取图片。在源代码里,你还可以找到一个名为ImageCrawler的示例。

1

这里有一个开源爬虫的列表,

你可以在这个链接找到更多信息:http://www.google.co.uk/#hl=en&source=hp&q=open+source+web+crawler&aq=f&aqi=g9g-m1&aql=&oq=&gs_rfai=&fp=77130048d7e0701a

在这个列表的前面,有一些用Java写的爬虫,维基百科的文章里也有更多相关的信息。

撰写回答