漂亮的爬行饼干

网友

1楼 · 编辑于 2024-05-15 03:51:15

Urllib2用于提交http请求，beauthulsoup用于解析html。您肯定需要一个http请求库，而且您可能还需要BeautifulSoup，具体取决于您想要做什么。在

BeautifulSoup非常容易使用，并且能够很好地解析断开的html，因此对于获取页面上任何javascript的链接非常有用（即使在html格式错误的情况下也是如此）。然后，您将需要其他东西来解析javascript，以确定它是否与cookies交互。在

要查看客户端上的cookie值是什么，只需查看http请求头或使用cookielib（尽管我个人没有使用过这个库）。在

对于http请求，我建议使用requests库，查看http请求头将非常简单：

response = requests.get(url)
header   = response.headers

我怀疑requests也有一个访问头的Set-Cookie值的快捷方式，但是您需要研究一下。在

网友

2楼 · 编辑于 2024-05-15 03:51:15

我不认为你需要BeautifulSoup来做这个。您可以使用urllib2进行连接，使用cookielib对cookies进行操作。在

网友

3楼 · 编辑于 2024-05-15 03:51:15

您不需要bs4来实现此目的，因为您只需要来自cookies的信息。（只有在最终需要从html代码中提取内容时才使用bs4）。在

对于cookies，我将使用python请求及其对http会话的支持：http://docs.python-requests.org/en/latest/user/advanced/