所以我使用https://github.com/bartdag/pylinkvalidator,似乎是在页面上查找404的一个很好的工具。但是我正在爬行的网站将404重定向到了一个非常sorry for 404
的页面。所以爬虫脚本没有检测到原始链接404
我写了一个小脚本,打印记录原始链接302和目的地链接,但这需要单独获取链接,我需要像pylinkvalidator
一样对整个网站进行爬网。你知道吗
此脚本单独执行链接,但需要爬网整个网站
import requests
link = 'https://example.com/1234sdsd'
r = requests.get(link, allow_redirects=False)
print(link,r.status_code, r.headers['Location'])
甚至其他工具也很好,比如selenium,但我认为它也会有同样的问题。你知道吗
目前没有回答
相关问题 更多 >
编程相关推荐