Python BS4与SDMX

import urllib2 from bs4 import BeautifulSoup url = "https://www.bundesbank.de/cae/servlet/StatisticDownload?tsId=BBK01.ST0304&its_fileFormat=sdmx" html_source = urllib2.urlopen(url).read() soup = BeautifulSoup(html_source, 'lxml') ts_series = soup.findAll("bbk:Series")

1条回答

网友

1楼 · 发布于 2024-06-16 12:23:24

soup.findAll("bbk:series")将返回结果。在

事实上，在这种情况下，即使您使用lxml作为解析器，BeautifulSoup仍然将其解析为html，因为html标记是不区分大小写的，beauthoulsoup会对所有标记进行分解，因此soup.findAll("bbk:series")也能工作。见官方文件Other parser problems。在

如果要将其解析为xml，请改用soup = BeautifulSoup(html_source, 'xml')。它还使用lxml，因为lxml是xml解析器BeautifulSoup拥有的。现在您可以使用ts_series = soup.findAll("Series")来获得结果，因为beautifulSoup将剥离名称空间部分bbk。在

编程相关推荐

如何使用Netbeans在Java中创建可执行文件
swing Set不透明（真/假）；JAVA
java JPA无法删除具有onotomany关系和cascatype all的实体
java Hibernate自参考映射难题
Java/从字符串到Java代码
java为什么我已经在取整了，却得到了一个无终止小数扩展？
java Wicket onsubmit信息对话框
java如何使用类、类加载器和URL获取资源
java在多模块项目中使用License Maven插件时出错
java HashSet“contains”方法是如何工作的？

相关问题更多 >

编程相关推荐

热门问题

热门文章