如何在Python2中脱机验证xHtml1.1文档

2024-06-16 08:53:46 发布

您现在位置:Python中文网/ 问答频道 /正文

我需要设置一个测试方法来验证作为Python字符串提供的标记是否有效。你知道吗

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.1//EN"
"http://www.w3.org/TR/xhtml11/DTD/xhtml11.dtd">

由于这将在内部CI上运行,因此它必须能够在不将内容发送到任何外部服务的情况下进行处理(我不希望使用像https://validator.w3.org/这样的在线验证器,但会得到类似的结果)。你知道吗

我看到的是https://lxml.de/validation.html#id1,看起来很有希望。问题是,我在获得有效的DTD卡。你知道吗

from lxml.etree import DTD
dtd = DTD(external_id = "-//W3C//DTD XHTML 1.1//EN")

这对我不起作用:(

---------------------------------------------------------------------------
DTDParseError                             Traceback (most recent call last)
<ipython-input-13-c6bf8522a141> in <module>()
----> 1 dtd = DTD(external_id = "-//W3C//DTD XHTML 1.1//EN")

/tmp/tmp.dWRxTnmLqz/venv/lib/python2.7/site-packages/lxml/etree.so in lxml.etree.DTD.__init__()

DTDParseError: error parsing DTD

Tags: httpsorgidhtmlw3clxmlexternalen
1条回答
网友
1楼 · 发布于 2024-06-16 08:53:46

我发现w3c-sgml-lib包提供了缺少的DTD,因此在安装后DTDParseError不再出现:

 sudo apt install w3c-sgml-lib libxml2

现在我使用Python2代码进行xHtml1.1验证,类似于下面的验证:

 #!/usr/bin/env python2
 # vim: set fileencoding=utf-8 :
 #
 # This is an example for https://stackoverflow.com/q/51236003/388968
 #
 # Copyright 2018 (c) Sebastian Sawicki (0x52fb0d10)
 #  OPENPGP4FPR:5691BED8E6CA579830842DD85CB361E552FB0D10
 #
 # Licence: https://creativecommons.org/licenses/by/4.0/
 #

 from lxml.etree import DTD
 from lxml.etree import fromstring

 from six import string_types

 def isValidXHtml11(s):
  return isinstance(s, string_types) and
   s.startswith('<?xml version="1.0" encoding="UTF-8"?>\n' +
   '<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.1//EN" ' +
   '"http://www.w3.org/TR/xhtml11/DTD/xhtml11.dtd">\n') and
   DTD(external_id = '-//W3C//DTD XHTML 1.1//EN').validate(
    fromstring(response.body)
   )

…不管怎样,这是开放的任何建议或改进。你知道吗

相关问题 更多 >