美化组:提取“img alt”Tex

2024-04-23 07:24:19 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试分析img alt文本。在

HTML代码如下:

[<p class="number">
<img alt="1" src="/img/common_new/ball_1.png"/>
<img alt="10" src="/img/common_new/ball_10.png"/>
<img alt="13" src="/img/common_new/ball_13.png"/>
<img alt="26" src="/img/common_new/ball_26.png"/>
<img alt="32" src="/img/common_new/ball_32.png"/>
<img alt="36" src="/img/common_new/ball_36.png"/>
<span class="plus">+</span>
<span class="number_bonus"><img alt="9" src="/img/common_new/ball_9.png"/> 
</span>
</p>]

我想做的是得到img alt[1,10, 13,26,32,36,9] 我应该怎么用beauthoulsoup?在


Tags: 代码文本srcnumberimgnewpnghtml
2条回答

您需要先安装bs4并请求。打开命令并写入:

pip install bs4
pip install requests

这是你的密码。在

^{pr2}$

你可以问任何你不懂的部分。在

使用BeautifulSoup^{}方法。在

>>> import bs4
>>> html = '''<p class="number">
<img alt="1" src="/img/common_new/ball_1.png"/>
<img alt="10" src="/img/common_new/ball_10.png"/>
<img alt="13" src="/img/common_new/ball_13.png"/>
<img alt="26" src="/img/common_new/ball_26.png"/>
<img alt="32" src="/img/common_new/ball_32.png"/>
<img alt="36" src="/img/common_new/ball_36.png"/>
<span class="plus">+</span>
<span class="number_bonus"><img alt="9" src="/img/common_new/ball_9.png"/> 
</span>
</p>'''

>>> soup = bs4.BeautifulSoup(html, 'lxml')
>>> img_alt = []
>>> for img_tag in soup.find_all('img'):
...     img_alt.append(int(img_tag.get('alt')))  # typecasting to integer
>>> print(img_alt)
[1,10, 13,26,32,36,9]  # Output

相关问题 更多 >