如何将网页的Html源转换为组织。w3c。多姆。java文档？

# 1 楼答案

这实际上是一件相当困难的事情，因为任意的HTML网页有时格式不正确（主要的浏览器是相当宽容的）。你可能想研究一下swing html parser，我从未尝试过，但看起来它可能是最好的选择。您还可以尝试类似的方法，并处理可能出现的任何解析异常（尽管我只尝试过xml）：

import java.io.File;
import org.w3c.dom.Document;
import org.w3c.dom.*;

import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.parsers.DocumentBuilder;
import org.xml.sax.SAXException;
import org.xml.sax.SAXParseException; 

...

try {
    DocumentBuilderFactory docBuilderFactory = DocumentBuilderFactory.newInstance();
    DocumentBuilder docBuilder = docBuilderFactory.newDocumentBuilder();
    Document doc = docBuilder.parse (InputStreamYouBuiltEarlierFromAnHTTPRequest);
}
catch (ParserConfigurationException e)
{
    ...
}
catch (SAXException e)
{
    ...
}
catch (IOException e)
{
    ...
}

...

Python中文网

有 Java 编程相关的问题?

如何将网页的Html源转换为组织。w3c。多姆。java文档？

共 (1) 个答案

# 1 楼答案