漂亮的爬行饼干

2024-03-29 12:03:36 发布

您现在位置:Python中文网/ 问答频道 /正文

我的任务是创建一个cookie审计工具,它可以对整个网站进行爬网,收集页面上所有cookie的数据,并根据它们是否遵循用户数据对它们进行分类。我是Python新手,但我认为这对我来说是一个很棒的项目,beauthoulsoup是否适合这个工作?我们有大量的网站,目前正在迁移到Drupal,因此它必须能够扫描Polopyly CMS和Drupal。在


Tags: 工具数据项目用户cms网站cookie分类
3条回答

Urllib2用于提交http请求,beauthulsoup用于解析html。您肯定需要一个http请求库,而且您可能还需要BeautifulSoup,具体取决于您想要做什么。在

BeautifulSoup非常容易使用,并且能够很好地解析断开的html,因此对于获取页面上任何javascript的链接非常有用(即使在html格式错误的情况下也是如此)。然后,您将需要其他东西来解析javascript,以确定它是否与cookies交互。在

要查看客户端上的cookie值是什么,只需查看http请求头或使用cookielib(尽管我个人没有使用过这个库)。在

对于http请求,我建议使用requests库,查看http请求头将非常简单:

response = requests.get(url)
header   = response.headers

我怀疑requests也有一个访问头的Set-Cookie值的快捷方式,但是您需要研究一下。在

我不认为你需要BeautifulSoup来做这个。您可以使用urllib2进行连接,使用cookielib对cookies进行操作。在

您不需要bs4来实现此目的,因为您只需要来自cookies的信息。(只有在最终需要从html代码中提取内容时才使用bs4)。在

对于cookies,我将使用python请求及其对http会话的支持:http://docs.python-requests.org/en/latest/user/advanced/

相关问题 更多 >