用正则表达式查找标签的靓汤？

网友

1楼 · 编辑于 2024-06-06 20:48:01

是的，请参阅文档。。。

http://www.crummy.com/software/BeautifulSoup/bs3/documentation.html

import re

soup.findAll(re.compile("^a$|(div)"))

网友

2楼 · 编辑于 2024-06-06 20:48:01

请注意，还可以使用正则表达式在标记的属性中搜索。例如：

import re
from bs4 import BeautifulSoup

soup.find_all('a', {'href': re.compile(r'crummy\.com/')})

此示例查找链接到包含子字符串'crummy.com'的网站的所有<a>标记。

（我知道这是一个很老的帖子，但希望有人会发现这个额外的信息有用。）

网友
3楼 · 编辑于 2024-06-06 20:48:01

^{}是美丽汤搜索API中最受欢迎的方法。

你可以通过不同的过滤器。另外，通过list查找多个标记：

>>> soup.find_all(['a', 'div'])

示例：

>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup('<html><body><div>asdfasdf</div><p><a>foo</a></p></body></html>')
>>> soup.find_all(['a', 'div'])
[<div>asdfasdf</div>, <a>foo</a>]

或者可以使用regular expression查找包含a或div的标记：

>>> import re
>>> soup.find_all(re.compile("(a|div)"))

相关问题更多 >

编程相关推荐

热门问题

热门文章

用正则表达式查找标签的靓汤？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >