python中的lxml，从u解析

Traceback (most recent call last): File "yatego.py", line 10, in <module> root = etree.parse(html) File "lxml.etree.pyx", line 2942, in lxml.etree.parse (src/lxml/lxml.etree.c:54187) File "parser.pxi", line 1550, in lxml.etree._parseDocument (src/lxml/lxml.etree.c:79703) File "parser.pxi", line 1580, in lxml.etree._parseFilelikeDocument (src/lxml/lxml.etree.c:80012) File "parser.pxi", line 1463, in lxml.etree._parseDocFromFilelike (src/lxml/lxml.etree.c:78908) File "parser.pxi", line 1019, in lxml.etree._BaseParser._parseDocFromFilelike (src/lxml/lxml.etree.c:75905) File "parser.pxi", line 564, in lxml.etree._ParserContext._handleParseResultDoc (src/lxml/lxml.etree.c:71739) File "parser.pxi", line 645, in lxml.etree._handleParseResult (src/lxml/lxml.etree.c:72614) File "parser.pxi", line 585, in lxml.etree._raiseParseError (src/lxml/lxml.etree.c:71955) lxml.etree.XMLSyntaxError: Entity 'mdash' not defined, line 4, column 21

File "yatego.py", line 11, in <module> doc = lxml.html.parse(res.content) File "/usr/lib/python2.7/dist-packages/lxml/html/__init__.py", line 692, in parse return etree.parse(filename_or_url, parser, base_url=base_url, **kw) File "lxml.etree.pyx", line 2942, in lxml.etree.parse (src/lxml/lxml.etree.c:54187) File "parser.pxi", line 1528, in lxml.etree._parseDocument (src/lxml/lxml.etree.c:79485) File "parser.pxi", line 1557, in lxml.etree._parseDocumentFromURL (src/lxml/lxml.etree.c:79768) File "parser.pxi", line 1457, in lxml.etree._parseDocFromFile (src/lxml/lxml.etree.c:78843) File "parser.pxi", line 997, in lxml.etree._BaseParser._parseDocFromFile (src/lxml/lxml.etree.c:75698) File "parser.pxi", line 564, in lxml.etree._ParserContext._handleParseResultDoc (src/lxml/lxml.etree.c:71739) File "parser.pxi", line 645, in lxml.etree._handleParseResult (src/lxml/lxml.etree.c:72614) File "parser.pxi", line 583, in lxml.etree._raiseParseError (src/lxml/lxml.etree.c:71927) IOError: Error reading file '<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>IANA — Example domains</title>

3条回答

网友

1楼 · 编辑于 2024-05-16 03:57:42

您应该使用lxml.html来解析HTML，而不是lxml.etree。

您还可以使用lxml直接打开url：

doc = lxml.html.parse(url)

有时lxml在处理HTTP的怪癖时会遇到困难，在这种情况下，您需要使用更健壮的解决方案来获取页面，如^{}：

res = requests.get(url)
doc = lxml.html.parse(res.content)

网友

2楼 · 编辑于 2024-05-16 03:57:42

应该使用html.read()开头：HTML不是字符串类型。另外，您应该检查URL下载是否正确，因为这是绝对不能保证的。

升级版。使用html.parse(filename_or_url)

网友

3楼 · 编辑于 2024-05-16 03:57:42

这里的关键是例外：

IOError: Error reading file '<!DOCTYPE html PUBLIC  ...

将文件内容传递给一个期望文件路径的函数。同样的原因doc = lxml.html.parse(url)工作，url“是”文件路径。

下面的效果更好吗？

doc = lxml.html.fromstring(res.content)

相关问题更多 >

编程相关推荐

热门问题

热门文章