获取第一个点击的网址

网友

1楼 · 编辑于 2024-05-12 18:42:13

您可以使用BeautifulSoup查找web结果，然后查找第一个返回href的元素：

import requests
import bs4

query = 'hello world'
url = 'http://google.com/search?q=' + query

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'}
page= requests.get(url, headers=headers)

soup = bs4.BeautifulSoup(page.text, 'html.parser')

for elem in soup(text='Web results'):
    print (elem.find_next('a')['href'])

输出：

print (elem.find_next('a')['href'])


https://en.wikipedia.org/wiki/%22Hello,_World!%22_program

网友

2楼 · 编辑于 2024-05-12 18:42:13

我建议使用像BeautifulSoup这样的东西来针对包含结果的URL的HTML元素。然后，你可以储存网址，并做你喜欢的。你知道吗

import requests
from bs4 import BeautifulSoup

query = 'hello world'
url = 'http://google.com/search?q=' + query
page = requests.get(url)
soup = BeautifulSoup(page.text, 'html.parser')

for link in soup.find_all('a'):
    print(link.get('href'))

网友

3楼 · 编辑于 2024-05-12 18:42:13

您可以使用“选择一个”来限制第一个匹配。使用类r限制结果。使用类和类型选择器比使用属性更快，这就是我使用r和a的原因。你知道吗

import requests
from bs4 import BeautifulSoup as bs
query = 'hello world'
url = 'http://google.com/search?q=' + query
page= requests.get(url)
soup = bs(page.content, 'lxml')
print(soup.select_one('.r a')['href'])

相关问题更多 >

编程相关推荐

热门问题

热门文章

获取第一个点击的网址

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >