下面的HTML代码来自一个关于电影评论的网站。我想从下面的代码中提取星号,分别是John C. Reilly
、Sarah Silverman
和Gal Gadot
。我怎么能这么做?你知道吗
代码:
html_doc = """
<html>
<head>
</head>
<body>
<div class="credit_summary_item">
<h4 class="inline">Stars:</h4>
<a href="/name/nm0000604/?ref_=tt_ov_st_sm">John C. Reilly</a>,
<a href="/name/nm0798971/?ref_=tt_ov_st_sm">Sarah Silverman</a>,
<a href="/name/nm2933757/?ref_=tt_ov_st_sm">Gal Gadot</a>
<span class="ghost">|</span>
<a href="fullcredits/?ref_=tt_ov_st_sm">See full cast & crew</a> »
</div>
</body>
</html>
"""
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')
我打算使用for循环遍历每个div class
,直到找到了带有文本Stars
的类,然后我可以在其中提取名称。但我不知道该如何编写代码,因为我对HTML语法和模块都不太熟悉。你知道吗
也可以使用regex
您可以迭代
credit_summary_item
div
中的所有a
标记:输出:
编辑:
输出:
我将展示如何实现这一点,并看到您只需要学习漂亮的usoap语法。你知道吗
首先,我们希望对属性为“class”的“div”标记使用该方法
findAll
。你知道吗然后,我们将过滤所有没有星星的div:
如果你只有一个开始的地方,你可以把它拿出来:
然后再次查找标记“a”中的所有文本
你可以看到我没有使用任何html/css语法,只使用了soup。 我希望有帮助。你知道吗
相关问题 更多 >
编程相关推荐