我正在使用BeautifulSoup从IMDb获取HTML页面,我想从页面中提取海报图像。我已经得到了基于其中一个属性的图像,但我不知道如何提取其中的数据。
这是我的代码:
url = 'http://www.imdb.com/title/tt%s/' % (id)
soup = BeautifulSoup(urllib2.urlopen(url).read())
print("before FOR")
for src in soup.find(itemprop="image"):
print("inside FOR")
print(link.get('src'))
我相信你的例子很接近。您需要使用findAll()而不是find(),当您迭代时,您将从src切换到link。在下面的示例中,我将其切换为
tag
此代码适用于美化组4:
如果我理解正确的话,你是在寻找图像的src,在那之后提取它。
首先,您需要找到(使用检查器)HTML中的哪个位置是图像。例如,在我的粒子案例中,我要取消足球队的防护罩,我需要:
然后,你需要处理图像。你必须有选择。
第一:使用numpy:
shield=url_to_图像(shield_url)
第二次使用scikit image库(可能需要安装):
注意:就在这个特定的示例中,我需要在begging中添加http:。
希望有帮助!
你就快到了-只有几个错误。
soup.find()
获取匹配的第一个元素,而不是一个列表,因此不需要遍历它。一旦获得了元素,就可以使用字典访问来获取其属性(比如src
)。这是一个修改过的版本:我把} 是一个内置函数,屏蔽它们是不好的做法。
id
改成了film_id
,因为^{相关问题 更多 >
编程相关推荐