如何检查网站中是否存在特定的txt并保存链接python?

2024-06-16 09:31:34 发布

您现在位置:Python中文网/ 问答频道 /正文

我有这个网站:https://geo1.ville.levis.qc.ca/grilleusage/default.aspx?zoneid=1 我需要一个代码来检查不同的区域ID,[1到3000]。并检查该链接中是否存在“H10”一词(如此https://geo1.ville.levis.qc.ca/grilleusage/default.aspx?zoneid=0160) 如果单词“H10”存在,我希望所有包含该单词的链接都被保存。 多谢各位


Tags: 代码httpsdefault网站链接单词caqc
1条回答
网友
1楼 · 发布于 2024-06-16 09:31:34

您可以使用此示例在不同区域上迭代,并检查是否存在与H10的链接:

import requests
from bs4 import BeautifulSoup

url = "https://geo1.ville.levis.qc.ca/grilleusage/default.aspx?zoneid={}"

for zoneid in range(159, 165):  # < - adjust pages here, for eg. (1, 3001)
    u = url.format(zoneid)
    print("Checking {}".format(u))
    soup = BeautifulSoup(requests.get(u).content, "html.parser")

    h10_links = soup.select('a:-soup-contains("H10")')
    for link in h10_links:
        print(link["href"])

印刷品:

Checking https://geo1.ville.levis.qc.ca/grilleusage/default.aspx?zoneid=159
Checking https://geo1.ville.levis.qc.ca/grilleusage/default.aspx?zoneid=160
https://www.ville.levis.qc.ca/fileadmin/documents/pdf/permis/classes_usages_zonage_vdl.pdf
Checking https://geo1.ville.levis.qc.ca/grilleusage/default.aspx?zoneid=161
Checking https://geo1.ville.levis.qc.ca/grilleusage/default.aspx?zoneid=162
Checking https://geo1.ville.levis.qc.ca/grilleusage/default.aspx?zoneid=163
Checking https://geo1.ville.levis.qc.ca/grilleusage/default.aspx?zoneid=164

相关问题 更多 >