BeautifulSoup4.get('href')不仅返回href,还返回一些垃圾

2024-06-15 18:56:36 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在写一个程序,在谷歌搜索“jopaolega”并打印第一个结果的url

这是我正在运行的代码:

import requests, webbrowser, bs4

res = requests.get("https://www.google.com/search?q=" + "jopa olega")
res.raise_for_status()

soup = bs4.BeautifulSoup(res.text, features="html.parser")

links = soup.select('div#main > div > div > div > a')

href = links[0].get('href')  # <---- problem may be here
print(href)

我希望看到的是:

https://pirozhki-ru.livejournal.com/990964.html

实际输出:

/url?q=https://pirozhki-ru.livejournal.com/990964.html&sa=U&ved=2ahUKEwjppYzLgKTlAhUMxosKHS5rDmkQFjAAegQIBBAB&usg=AOvVaw0UtLIaLS93pUQMWBngtgz7

这是链接的html:

<a href="https://pirozhki-ru.livejournal.com/990964.html" 
   ping="/url?sa=t&amp;source=web&amp;rct=j&amp;url=https://pirozhki-ru.livejournal.com/990964.html&amp;ved=2ahUKEwiHn7P9h6TlAhURpIsKHRX5CRwQFjAAegQIAhAB">...
</a>

顺便说一下,每次的产量都不一样。有人知道为什么会这样吗?感谢您的帮助。谢谢你


Tags: httpsdivcomurlgethtmlrures