IMDb HTML提取与美丽的汤

2024-06-16 11:18:13 发布

男 | 程序猿一只，喜欢编程写python代码。

使用漂亮的Soup4，我试图获取一些似乎没有标记的文本。（我可能错了，我对HTML不是很在行）

我需要从页面的IMDb代码中提取几个值：某部电影的预算值和最新的全球总价值。代码的长度因胶片而异，因此如果有一种方法使用漂亮的Soup4来提取这些值，而不考虑行号，这将是非常有用的。代码如下：

<div id="tn15content">
<h5>Budget</h5>
$165,000,000 (estimated)<br/>
<br/>

我需要提取165000000美元，这样我就可以储存了

总代码更令人困惑：

^{pr2}$

我需要的是最新的（世界范围内的数字是通过大量的代码，我决定在这里省略，因为这里的间隔）。在

我知道有一个类似的问题在这里解决了，但是我不能让解决方案工作，也不能评论要求用户提供我的解决方案的帮助，因为我是一个新的网站。我本来打算让imdby正常工作，但是我不确定如何让它与WinPython一起安装。在

Tags：方法代码标记文本 br 电影 html 页面

1条回答

网友

1楼 · 发布于 2024-06-16 11:18:13

使用正则表达式

\$([0-9,]+) \(USA\)

\$([0-9,]+) \(Worldwide\)