java如何使用Jsoup获取已解析HTML的所有头元素?
我正在从事一个使用JSOUPAPI解析html的项目。在另一个模块中,我接收Document类的htmlDom对象,并尝试获取所有头元素。我想提取头类型为<h1, h2, ..., h6>
的所有元素
我试着浏览JSoupAPI,其中包括Elements类的所有方法,但找不到为我提取头元素的方法
如果有任何方法可以简化我当前使用Jsoup从元素集合提取头元素的代码,请指导我
Elements elementsObj = htmlDom.getAllElements();
for (Element htmlElement : elementsObj) {
// Match and extract all the headers from other elements
if (htmlElement.nodeName().matches("h[1-6]")) {
headerNodeList.add(htmlElement);
}
# 1 楼答案
要避免循环,可以使用Jsoup的
select
方法。它允许您直接从文档中选择元素,并避免任何迭代。下面是另一篇关于堆栈溢出的帖子,有同样的问题Jsoup: get all heading tags