用BeautifulSoup解析HTML时,< >变成了&lt;和&gt;

9 投票
2 回答
9970 浏览
提问于 2025-04-17 14:35

在用Beautifulsoup处理HTML的时候,<和>这两个符号被转换成了&lt;&gt;。因为所有的标签都被转换了,所以整个文档的结构都乱了。有没有什么建议?

2 个回答

0

这可能是因为有一个无效的字符(因为字符集的编码或解码问题),所以BeautifulSoup在解析输入时遇到了困难。我的解决办法是直接把我的字符串传给BeautifulSoup,而不进行任何编码或解码。在我的情况下,我本来是想自己把UTF-16转换成UTF-8。

6

formatter=None 试试看,这可能会有帮助(可以参考这个链接:http://www.crummy.com/software/BeautifulSoup/bs4/doc/#output-formatters),不过这可能也说明你的HTML有问题。

如果这样还不行,你能提供一些示例代码和HTML吗?这样我们可以更好地理解你遇到的问题。

撰写回答