用BeautifulSoup解析HTML时,< >变成了<和>
在用Beautifulsoup处理HTML的时候,<和>这两个符号被转换成了<
和>
。因为所有的标签都被转换了,所以整个文档的结构都乱了。有没有什么建议?
2 个回答
0
这可能是因为有一个无效的字符(因为字符集的编码或解码问题),所以BeautifulSoup在解析输入时遇到了困难。我的解决办法是直接把我的字符串传给BeautifulSoup,而不进行任何编码或解码。在我的情况下,我本来是想自己把UTF-16转换成UTF-8。
6
把 formatter=None
试试看,这可能会有帮助(可以参考这个链接:http://www.crummy.com/software/BeautifulSoup/bs4/doc/#output-formatters),不过这可能也说明你的HTML有问题。
如果这样还不行,你能提供一些示例代码和HTML吗?这样我们可以更好地理解你遇到的问题。