使用beauthoulsoup通过文本获取Href

3条回答

网友

1楼 · 编辑于 2024-04-25 18:25:04

以及一个没有正则表达式的解决方案：

path = soup.select('a')
if path[0].getText().strip() == 'Something3':
print(path)

输出：

^{pr2}$

网友

2楼 · 编辑于 2024-04-25 18:25:04

您可以将:contains伪类与bs4 4.7.1一起使用

from bs4 import BeautifulSoup as bs

html = '<a href="page1/somethingC.aspx">Something3</a>'
soup = bs(html, 'lxml')
links = [link.text for link in soup.select('a:contains(Something3)')]
print(links)

网友

3楼 · 编辑于 2024-04-25 18:25:04

可以使用regex查找包含“Something3”的任何文本：

html = '''<a href="page1/somethingC.aspx">Something3</a>

<a href="page1/somethingC.aspx">
Something3</a>'''


from bs4 import BeautifulSoup
import re

soup = BeautifulSoup(html, "lxml")

path = soup.findAll('a', href=True, text=re.compile("Something3"))

for link in path:
    print (link['href'])

编程相关推荐

使用JavaCV库进行图像旋转的java问题
为Java类创建相等的方法来比较double或int值
javarmi、EJB和回调
用java编写phonegap应用程序（使用GWT、Vaadin等）
java在Hibernate中设置参数值时指定字符串类型
java正则表达式文本日期
Java Hibernate@SafeHtml不允许url链接
使用Java Trie时，无法识别词尾。在递归中失败
java如何在Swing的JTextArea中执行正则表达式
java如何在列表的所有对象中更改sepecific属性的值

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用beauthoulsoup通过文本获取Href

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >