如何扫描网页并获取图片和YouTube嵌入?
我正在开发一个网页应用,需要从给定的网址获取所有的图片和嵌入的视频(比如YouTube上的视频)。我使用的是Python语言。
我在网上搜索过,但没有找到什么好的信息(可能是因为我不知道该怎么搜索),有没有人有这方面的经验,知道怎么实现这个功能?
如果有代码示例的话,我很想看看。
谢谢!
1 个回答
7
BeautifulSoup 是一个非常棒的网页抓取库。你可以用 urllib2 来获取网页,然后用 BeautifulSoup 来解析网页内容。下面是他们文档中的一个代码示例:
import urllib2
from BeautifulSoup import BeautifulSoup
page = urllib2.urlopen("http://www.icc-ccs.org/prc/piracyreport.php")
soup = BeautifulSoup(page)
for incident in soup('td', width="90%"):
where, linebreak, what = incident.contents[:3]
print where.strip()
print what.strip()
print