如何在python中用utf8标准生成lxml输出文件

2024-05-15 22:50:12 发布

您现在位置:Python中文网/ 问答频道 /正文

数据.xml

<?xml version="1.0" encoding="UTF-8"?>
<ArticleSet>
    <Article>            
        <LastName>Bojarski</LastName>
        <ForeName>-</ForeName>
        <Affiliation>-</Affiliation>            
    </Article>
    <Article>            
        <LastName>Genç</LastName>
        <ForeName>Yasemin</ForeName>
        <Affiliation>fgjfgnfgn</Affiliation>            
    </Article>
</ArticleSet>

示例代码

^{pr2}$

此代码删除从属关系等于-即其从属标记看起来像<Affliation>-</Affliation>的文章 当我将剩余的输出存储到输出.xml它将Unicode字符Genç解析为Gen&#231;,我想原样存储它。在

代码输出

<ArticleSet>
    <Article>            
        <LastName>Gen&#231;</LastName>
        <ForeName>Yasemin</ForeName>
        <Affiliation>fgjfgnfgn</Affiliation>            
    </Article>
</ArticleSet>

所需输出

<ArticleSet>
    <Article>            
        <LastName>Genç</LastName>
        <ForeName>Yasemin</ForeName>
        <Affiliation>fgjfgnfgn</Affiliation>            
    </Article>
</ArticleSet>

Tags: 数据代码versionarticlexmlutfencodinggen
1条回答
网友
1楼 · 发布于 2024-05-15 22:50:12

etree.write方法中有encoding参数。您还可以使用xml_declaration=True来声明输出文档的编码。在

dom.write('output.xml', encoding='utf-8', xml_declaration=True)

lxml documentation。在

相关问题 更多 >