有 Java 编程相关的问题?

你可以在下面搜索框中键入要查询的问题!

web爬虫读取网站内容的Java代码

1 月 Questions & Answers 1101

Java中是否有任何方法可以读取网页的内容

网页不是简单的HTML页面，它包含ajax调用、图像、PDF和Flash。我需要阅读/下载页面的所有内容（在执行ajax调用之后）

请给我建议解决这个问题的办法

Tags:

共 (2) 个答案

# 1 楼答案

为此，各种html解析器应运而生。你可以用其中一个

http://ccil.org/~cowan/XML/tagsoup/

http://jsoup.org/

http://jericho.htmlparser.net/docs/index.html

这些解决方案提取包含图像的html标记。对于css提取，可以使用css解析器
# 2 楼答案

你正在寻找一个爬虫和处理工具

有许多open source crawlers 被列出。您可以将其与搜索服务器Solr一起使用