Python Beautiful Soup 中的表格 td 标签

1 投票
1 回答
513 浏览
提问于 2025-04-16 01:34

Python中的Beautiful Soup库用于处理HTML和XML文档,特别是用来解析网页内容。

  <td class="result" valign="top" colspan="3">

现在,下面的代码没有正常工作:

for header in soup('table', 'td .result'):

出现了错误:

HTMLParser.HTMLParseError: malformed start tag

1 个回答

1

在他们的网站上提到,HTMLParser这个工具其实有点脆弱。也就是说,它在处理一些格式不太正确的HTML时容易出问题。为了避免这种情况,建议使用SGMLParser,因为它对不规范的HTML更有耐受力。

不过,遗憾的是,Python 3.0把SGMLParser从标准库里去掉了。如果你想找到解决这个问题的方法,可以参考上面的链接,里面有一些建议,比如使用html5lib这个库。

撰写回答