用BeautifulSoup解析HTML时，< >变成了<和>

9 投票

2 回答

9970 浏览

数据工程师

提问于 2025-04-17 14:35

在用Beautifulsoup处理HTML的时候，<和>这两个符号被转换成了<和>。因为所有的标签都被转换了，所以整个文档的结构都乱了。有没有什么建议？

html解析 beautifulsoup 文档结构标签转换

2 个回答

0

这可能是因为有一个无效的字符（因为字符集的编码或解码问题），所以BeautifulSoup在解析输入时遇到了困难。我的解决办法是直接把我的字符串传给BeautifulSoup，而不进行任何编码或解码。在我的情况下，我本来是想自己把UTF-16转换成UTF-8。

回答于 2025-04-17 由 Python大师

分享举报

6

把 formatter=None 试试看，这可能会有帮助（可以参考这个链接：http://www.crummy.com/software/BeautifulSoup/bs4/doc/#output-formatters），不过这可能也说明你的HTML有问题。

如果这样还不行，你能提供一些示例代码和HTML吗？这样我们可以更好地理解你遇到的问题。

回答于 2025-04-17 由 Python大师

分享举报

撰写回答