我不熟悉使用bs4进行网页抓取,我想从蛋白质数据库(PDB)获取蛋白质图像:
https://www.rcsb.org/structure/1A69
当我用Chrome Inspector检查HTML时,我看到图像是通过一个http链接获得的,我可以很容易地找到并保存图像
<img class="img-responsive center-block mainImage"
src="https://cdn.rcsb.org/images/rutgers/a6/1a69/1a69.pdb1-500.jpg">
然而,当我运行脚本提取src时,我只得到base64
data:image/gif;base64,R0lGODlhAQABAAD/ACwAAAAAAQABAAACADs=
我做错什么了吗?发生了什么事?有没有办法从base64获取http链接
我的代码:
from bs4 import BeautifulSoup as bs
from urllib.request import urlopen
url = "https://www.rcsb.org/structure/1A69"
resp = urlopen(url)
page = bs(resp,"html.parser")
for img in page.findAll('img',{'class':'img-responsive'}):
src = img['src']
print(src)
如果要查看none-base64图像,请尝试以下操作:
输出:
图像URL由Javascript动态组合,但您可以使用以下Python脚本模拟组合:
印刷品:
相关问题 更多 >
编程相关推荐