无法通过python和Beautiful Soup获取google专利URL

2024-05-14 18:42:28 发布

您现在位置:Python中文网/ 问答频道 /正文

我目前正试图在这个页面上找到谷歌专利的链接, https://datatool.patentsview.org/#detail/patent/10745438,但当我试图打印出带有“a”标记的所有链接时,只会出现一个不相关的网站

以下是我目前的代码:

url = 'https://datatool.patentsview.org/#detail/patent/10745438'
soup = BeautifulSoup(requests.get(url).content, 'html.parser')

links = []
print(soup)
for link in soup.find_all('a', href=True):
    print(link['href'])

当我打印出这道汤时,带有谷歌专利链接的“a”标签不会被打印出来,数组中的链接也不会被打印出来。唯一的印刷品是

http://uspto.gov/
tel:1-800-786-9199
./#viz/relationships
./#viz/locations
./#viz/comparisons

,这些都是不必要的信息。谷歌是否以某种方式保护他们的链接,或者是否有其他方式可以检索到谷歌专利的链接或重定向到页面


Tags: httpsorgurl链接link页面专利href
1条回答
网友
1楼 · 发布于 2024-05-14 18:42:28

不要刮它,只是做一些链接黑客:

url = 'https://datatool.patentsview.org/#detail/patent/10745438'
google_patents_url = 'https://www.google.com/patents/US' + url.rsplit('/', 1)[1]

相关问题 更多 >

    热门问题