ISO88591编码的XML文档中Unicode字符的java解码

1 周，3 日 Questions & Answers 289

使用javax。xml。transform我创建了这个ISO-8859-1文档，其中包含两个&#-编码字符쎼和쎶：

<?xml version="1.0" encoding="ISO-8859-1"?>
<xml>&#50108; and &#50102;</xml>

问题：符合标准的XML阅读器将如何解释쎼 和쎶,

就像《平原》一样。。。字符串（未转换回쎼和쎶）
作为쎼和쎶

生成XML的代码：

public void testInvalidCharacter() {
    try {
        String str = "\uC3BC and \uC3B6"; // 쎼 and 쎶
        System.out.println(str);

        DocumentBuilder builder = DocumentBuilderFactory.newInstance().newDocumentBuilder();
        Document doc = builder.newDocument();
        Element root = doc.createElement("xml");
        root.setTextContent(str);
        doc.appendChild(root);

        DOMSource domSource = new DOMSource(doc);

        Transformer transformer = TransformerFactory.newInstance().newTransformer();
        transformer.setOutputProperty(OutputKeys.ENCODING, StandardCharsets.ISO_8859_1.name());

        StringWriter out = new StringWriter();
        transformer.transform(domSource, new StreamResult(out));

        System.out.println(out.toString());

    } catch (ParserConfigurationException | DOMException | IllegalArgumentException | TransformerException e) {
        e.printStackTrace(System.err);
    }
}

Python中文网

有 Java 编程相关的问题?

ISO88591编码的XML文档中Unicode字符的java解码

共 (1) 个答案

# 1 楼答案