有 Java 编程相关的问题?

你可以在下面搜索框中键入要查询的问题!


共 (1) 个答案

  1. # 1 楼答案

    这实际上是一件相当困难的事情,因为任意的HTML网页有时格式不正确(主要的浏览器是相当宽容的)。你可能想研究一下swing html parser,我从未尝试过,但看起来它可能是最好的选择。您还可以尝试类似的方法,并处理可能出现的任何解析异常(尽管我只尝试过xml):

    import java.io.File;
    import org.w3c.dom.Document;
    import org.w3c.dom.*;
    
    import javax.xml.parsers.DocumentBuilderFactory;
    import javax.xml.parsers.DocumentBuilder;
    import org.xml.sax.SAXException;
    import org.xml.sax.SAXParseException; 
    
    ...
    
    try {
        DocumentBuilderFactory docBuilderFactory = DocumentBuilderFactory.newInstance();
        DocumentBuilder docBuilder = docBuilderFactory.newDocumentBuilder();
        Document doc = docBuilder.parse (InputStreamYouBuiltEarlierFromAnHTTPRequest);
    }
    catch (ParserConfigurationException e)
    {
        ...
    }
    catch (SAXException e)
    {
        ...
    }
    catch (IOException e)
    {
        ...
    }
    
    ...