我想用Python和Beautifulsoup4刮一个电视台的网站。你知道吗
我读到的整个站点的URL是:http://www.tve.es/alacarta/videos/aguila-roja/
我用命令html = soup.find_all("div", class_="extra mark")
提取包含有趣信息的段落:显示的季节数和每个季节的简短描述。你知道吗
在原始页面的HTML中,此部分如下所示:
如何确定季节数?我想一定是在搜索<p class="ladillo">
对象或<span>Season xy</span>
对象的数量(长度)的时候。
如何提取每个季节的描述/摘要?特别是因为前两个季节包含一个类似<span style>
的标记,但其余季节没有这个标记。此外,整个<p>
让我困惑。。。
(直到现在,我只使用正则表达式,在正式的bs文档中找不到处理我的问题的信息)。你知道吗
<div class="extra mark">
<p></p>
<p>
"Introduction with text"
</p>
<p>
<span style=light-height: 1.6em;">
"Another words for introduction"
</span>
</p>
<p>
"Final part of introduction"
</p>
<p>
<strong style="color: rgb(51, 102, 255); line-heigt: 20.8px;">
"This content is not available in the United States and Canada"
</strong>
</p>
<p></p>
<h3>
<p class="ladillo">
<span>Season 1</span>
</p>
</h3>
<p></p>
<p>
<span style>
"Description of season 1"
</span>
</p>
<p></p>
<p></p>
<h3>
<p class="ladillo">
<span>Season 2</span>
</p>
</h3>
<p></p>
<p>
<span style>
"Description of season2"
<span>
</p>
<p></p>
<p></p>
<h3>
<p class="ladillo">
<span>Season 3</span>
</p>
</h3>
<p></p>
<p>
"Description of season 3"
</p>
<p></p>
<h3>
<p class="ladillo">
<span>Season 4</span>
</p>
</h3>
<p></p>
<p>
"Description of season 4"
</p>
<p></p>
<div class="MenuBlind">
....
</div>
</div>
这里有一条路。在Python名称div中存储所拥有的内容。然后找到laudillo类的第一个实例,在这段代码中称为firstLaudillo。然后遍历这些项,然后检查每个项。忽略空段落和不相关的段落。从一开始,每次出现另一个类时递增。等等。您可能需要了解一点如何询问BeautifulSoup以获取这些项目的内容。你知道吗
相关问题 更多 >
编程相关推荐