我编写了以下Python代码,通过BeautifulSoup解析HTML:
parsed_html = BeautifulSoup('<img id = \'defualtPagePic\' src="http://my.com/images/realTarget.jpg" alt="test" src="http://my.com/images/fakeTarget.jpg" alt="too bad" onError="this.src=\'http://my.com/images/veryBad.jpg\';" />', "html.parser")
print("a >> "+ str(parsed_html.find(id="defualtPagePic").attrs))
print("b >> "+ str(parsed_html.find(id="defualtPagePic")['src']))
这是执行结果:
a >> {'id': 'defualtPagePic', 'src': 'http://my.com/images/fakeTarget.jpg', 'alt': 'too bad', 'onerror': "this.src='http://my.com/images/veryBad.jpg';"}
b >> http://my.com/images/fakeTarget.jpg
我想得到“realTarget.jpg”,但我失败了,得到了“fakeTarget.jpg”。 我认为原因是BeautifulSoup总是获取特定属性名称的最新值
对这种情况有什么建议吗
您可以切换到使用
lxml
解析器,如下所示:这将显示:
如果没有^{} ,则需要单独安装
相关问题 更多 >
编程相关推荐