python在抓取i时登录到一个站点

from bs4 import BeautifulSoup import urllib2 response=urllib2.urlopen('http://www.goodreads.com') soup = BeautifulSoup(response.read()) [x.extract() for x in soup.find_all('script')] print(soup.get_text())

3条回答

网友

1楼 · 编辑于 2024-04-25 19:17:53

实际上，当你访问这个站点时，有一个叫做sessions的东西，它包含了关于你账户的信息（不完全是这样的），你的浏览器可以在每次你登录主页时使用它们，但是你的代码不使用sessions和这些东西，所以你应该从第一个

1）转到主页2）登录3）收集数据

并且this question还演示了如何登录到您的帐户

我希望有帮助。在

网友

2楼 · 编辑于 2024-04-25 19:17:53

Goodreads有一个API，您可能希望使用它来代替登录和抓取站点的HTML。它是XML格式的，所以您仍然可以使用BeautifulSoup-只需确保安装了lxml，并将其用作解析器。您需要注册一个开发人员密钥，还需要注册您的应用程序，但这样就可以开始了。在

网友

3楼 · 编辑于 2024-04-25 19:17:53

您可以使用urllib2或requests库登录，然后获取响应。根据我的经验，使用请求要容易得多。在

以下是关于同时使用urllib2和请求登录的一个很好的解释：

How to use Python to login to a webpage and retrieve cookies for later usage?

相关问题更多 >

编程相关推荐

热门问题

热门文章