java nutch爬虫相对URL问题
有没有人在标准html解析器插件处理相对URL的方式上遇到过问题?有一个站点-http://xxxx/asp/list_books.asp?id_f=11327 当浏览href设置为的链接时 '?id_r=442&;id=41&;订单号 浏览器自然会将您带到 http://xxxx/asp/list_books.asp?id_r=442&id=41&order=
但是,简而言之,当从页面解析大纲链接时,链接最终会被删除 http://xxxx/asp/?id_r=442&id=41&order=
这当然是坏的。那么,为什么要列出这些书呢。asp走了
# 1 楼答案
已为此记录了一个bug。看一看