web爬虫读取网站内容的Java代码
Java中是否有任何方法可以读取网页的内容
网页不是简单的HTML页面,它包含ajax调用、图像、PDF和Flash。 我需要阅读/下载页面的所有内容(在执行ajax调用之后)
请给我建议解决这个问题的办法
你可以在下面搜索框中键入要查询的问题!
Java中是否有任何方法可以读取网页的内容
网页不是简单的HTML页面,它包含ajax调用、图像、PDF和Flash。 我需要阅读/下载页面的所有内容(在执行ajax调用之后)
请给我建议解决这个问题的办法
# 1 楼答案
为此,各种html解析器应运而生。你可以用其中一个
http://ccil.org/~cowan/XML/tagsoup/
http://jsoup.org/
http://jericho.htmlparser.net/docs/index.html
这些解决方案提取包含图像的html标记。对于css提取,可以使用css解析器
# 2 楼答案
你正在寻找一个爬虫和处理工具
有许多open source crawlers 被列出。您可以将其与搜索服务器Solr一起使用