漂亮的爬行饼干

2021-05-16 07:53:47 发布

您现在位置:Python中文网/ 问答频道 /正文

我的任务是创建一个cookie审计工具,它可以对整个网站进行爬网,收集页面上所有cookie的数据,并根据它们是否遵循用户数据对它们进行分类。我是Python新手,但我认为这对我来说是一个很棒的项目,beauthoulsoup是否适合这个工作?我们有大量的网站,目前正在迁移到Drupal,因此它必须能够扫描Polopyly CMS和Drupal。在

3条回答
网友
1楼 ·

我不认为你需要BeautifulSoup来做这个。您可以使用urllib2进行连接,使用cookielib对cookies进行操作。在

网友
2楼 ·

您不需要bs4来实现此目的,因为您只需要来自cookies的信息。(只有在最终需要从html代码中提取内容时才使用bs4)。在

对于cookies,我将使用python请求及其对http会话的支持:http://docs.python-requests.org/en/latest/user/advanced/

网友
3楼 ·

Urllib2用于提交http请求,beauthulsoup用于解析html。您肯定需要一个http请求库,而且您可能还需要BeautifulSoup,具体取决于您想要做什么。在

BeautifulSoup非常容易使用,并且能够很好地解析断开的html,因此对于获取页面上任何javascript的链接非常有用(即使在html格式错误的情况下也是如此)。然后,您将需要其他东西来解析javascript,以确定它是否与cookies交互。在

要查看客户端上的cookie值是什么,只需查看http请求头或使用cookielib(尽管我个人没有使用过这个库)。在

对于http请求,我建议使用requests库,查看http请求头将非常简单:

response = requests.get(url)
header   = response.headers

我怀疑requests也有一个访问头的Set-Cookie值的快捷方式,但是您需要研究一下。在

相关问题