用beauthulsoup提取CD

from bs4 import BeautifulSoup,CData txt = '''<foobar>We have <![CDATA[some data here]]> and more. </foobar>''' soup = BeautifulSoup(txt) for cd in soup.findAll(text=True): if isinstance(cd, CData): print('CData contents: %r' % cd)

1条回答

网友

1楼 · 发布于 2024-06-08 19:11:48

问题似乎是默认解析器无法正确解析CDATA。如果指定了正确的解析器，CDATA将显示：

soup = BeautifulSoup(txt,'html.parser')

有关解析器的详细信息，请参见the docs

我通过使用the diagnose function得到了这个结论，the docs建议：

If you have questions about Beautiful Soup, or run into problems, send mail to the discussion group. If your problem involves parsing an HTML document, be sure to mention what the diagnose() function says about that document.

使用diagnose（）函数可以输出不同解析器如何查看html，这使您能够为您的用例选择正确的解析器。在

编程相关推荐

在dotnet（C#）中是否有类似于javarmi的概念或实现？
java使用for循环对字符串进行排序
令牌端点中的java NullPointerException
java如何让用户使用web应用程序来查找用户的计算机制造商和型号？
java计算六边形的边长
jpeg如何在java jar中正确引用图像文件？
java Tomcat随机关闭
java Eclipse在导入中没有看到类/包
在Java中读取未知的序列化对象
流上的reduce（）操作似乎正在修改数据源（列表）流API Java 8

相关问题更多 >

编程相关推荐

热门问题

热门文章

用beauthulsoup提取CD

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >