2024-04-25 02:15:04 发布
网友
我试着用一个单一的输入刮某个网站。 现在我已经用Scrapy构建了它,经过所有的调整(包括不服从命令),它的工作非常好机器人.txt),并将其运行在一个循环上自动进行数据挖掘。你知道吗
现在,我需要做一些东西,将刮一个单一的输入页面
问题是,我唯一能访问的页面是机器人.txt我无法在网上找到任何关于四处走动的信息机器人.txt. 你知道吗
有没有关于如何处理BS或请求的教程?你知道吗
尝试传递这些头,您将得到预期的输出。你知道吗
import requests headers = { 'accept':'*/*', 'accept-encoding':'gzip, deflate, br', 'accept-language':'en-GB,en;q=0.9,en-US;q=0.8,hi;q=0.7,la;q=0.6', 'cache-control':'no-cache', 'dnt':'1', 'pragma':'no-cache', 'referer':'https', 'sec-fetch-mode':'no-cors', 'sec-fetch-site':'cross-site', 'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36', } URL = "https://www.crunchbase.com/login" response = requests.get(url=URL, headers=headers) print(response.text)
希望这有帮助!你知道吗
requests是用于实际获取HTML的模块, beautifulsoup是用于在HTML中移动的解析器(允许您选择所需的元素),而问题请求的答案实际上并不关心机器人.txt文件(天气允许或不允许),如果您的请求被阻止,我建议request headers。你知道吗
requests
beautifulsoup
另一方面,scrapy实际上阅读并理解机器人.txt您必须设置ROBOTSTXT_OBEY=False才能刮取“不允许”的页面。你知道吗
ROBOTSTXT_OBEY=False
尝试传递这些头,您将得到预期的输出。你知道吗
希望这有帮助!你知道吗
requests
是用于实际获取HTML的模块,beautifulsoup
是用于在HTML中移动的解析器(允许您选择所需的元素),而问题请求的答案实际上并不关心机器人.txt文件(天气允许或不允许),如果您的请求被阻止,我建议request headers。你知道吗另一方面,scrapy实际上阅读并理解机器人.txt您必须设置
ROBOTSTXT_OBEY=False
才能刮取“不允许”的页面。你知道吗相关问题 更多 >
编程相关推荐