我在网络爬虫/抓取方面的知识非常有限,我正在尝试创建一个网络爬虫程序。但是,当我尝试从服务器打印响应文本时,我得到以下结果:
<html><body><h1>400 Bad request</h1>
Your browser sent an invalid request.
</body></html>
我不认为这段代码有什么问题,因为它可以在我尝试过的其他网站上使用。希望你们这些好人能帮我解决这个问题。这只是一种预感,但这是由url没有以.xml
结尾造成的吗
import requests
url = 'https://phys.org/rss-feed/'
res = requests.get(url)
print(res.text[:500])
尝试使用
BeautifulSoup
和一个头来像屏蔽真实请求一样屏蔽您的请求:单靠掩蔽也是有效的:
相关问题 更多 >
编程相关推荐