请求/美化组与机器人.tx

2条回答

网友

1楼 · 编辑于 2024-04-25 02:15:04

尝试传递这些头，您将得到预期的输出。你知道吗

import requests

headers = { 'accept':'*/*',
'accept-encoding':'gzip, deflate, br',
'accept-language':'en-GB,en;q=0.9,en-US;q=0.8,hi;q=0.7,la;q=0.6',
'cache-control':'no-cache',
'dnt':'1',
'pragma':'no-cache',
'referer':'https',
'sec-fetch-mode':'no-cors',
'sec-fetch-site':'cross-site',
'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36',
 }

URL = "https://www.crunchbase.com/login"

response = requests.get(url=URL, headers=headers)
print(response.text)

希望这有帮助！你知道吗

网友

2楼 · 编辑于 2024-04-25 02:15:04

requests是用于实际获取HTML的模块， beautifulsoup是用于在HTML中移动的解析器（允许您选择所需的元素），而问题请求的答案实际上并不关心机器人.txt文件（天气允许或不允许），如果您的请求被阻止，我建议request headers。你知道吗

另一方面，scrapy实际上阅读并理解机器人.txt您必须设置ROBOTSTXT_OBEY=False才能刮取“不允许”的页面。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章

请求/美化组与机器人.tx

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >