IMDb HTML提取与美丽的汤

2024-06-16 11:18:13 发布

您现在位置:Python中文网/ 问答频道 /正文

使用漂亮的Soup4,我试图获取一些似乎没有标记的文本。(我可能错了,我对HTML不是很在行)

我需要从页面的IMDb代码中提取几个值:某部电影的预算值和最新的全球总价值。代码的长度因胶片而异,因此如果有一种方法使用漂亮的Soup4来提取这些值,而不考虑行号,这将是非常有用的。 代码如下:

<div id="tn15content">
<h5>Budget</h5>
$165,000,000 (estimated)<br/>
<br/>

来自此页面的源代码:IMDb Box Office page for Interstellar

我需要提取165000000美元,这样我就可以储存了

总代码更令人困惑:

^{pr2}$

我需要的是最新的(世界范围内的数字是通过大量的代码,我决定在这里省略,因为这里的间隔)。在

我知道有一个类似的问题在这里解决了,但是我不能让解决方案工作,也不能评论要求用户提供我的解决方案的帮助,因为我是一个新的网站。 我本来打算让imdby正常工作,但是我不确定如何让它与WinPython一起安装。在


Tags: 方法代码标记文本br电影html页面