2024-05-15 03:51:15 发布
网友
我的任务是创建一个cookie审计工具,它可以对整个网站进行爬网,收集页面上所有cookie的数据,并根据它们是否遵循用户数据对它们进行分类。我是Python新手,但我认为这对我来说是一个很棒的项目,beauthoulsoup是否适合这个工作?我们有大量的网站,目前正在迁移到Drupal,因此它必须能够扫描Polopyly CMS和Drupal。在
Urllib2用于提交http请求,beauthulsoup用于解析html。您肯定需要一个http请求库,而且您可能还需要BeautifulSoup,具体取决于您想要做什么。在
BeautifulSoup非常容易使用,并且能够很好地解析断开的html,因此对于获取页面上任何javascript的链接非常有用(即使在html格式错误的情况下也是如此)。然后,您将需要其他东西来解析javascript,以确定它是否与cookies交互。在
BeautifulSoup
要查看客户端上的cookie值是什么,只需查看http请求头或使用cookielib(尽管我个人没有使用过这个库)。在
cookielib
对于http请求,我建议使用requests库,查看http请求头将非常简单:
requests
response = requests.get(url) header = response.headers
我怀疑requests也有一个访问头的Set-Cookie值的快捷方式,但是您需要研究一下。在
Set-Cookie
我不认为你需要BeautifulSoup来做这个。您可以使用urllib2进行连接,使用cookielib对cookies进行操作。在
urllib2
您不需要bs4来实现此目的,因为您只需要来自cookies的信息。(只有在最终需要从html代码中提取内容时才使用bs4)。在
对于cookies,我将使用python请求及其对http会话的支持:http://docs.python-requests.org/en/latest/user/advanced/
Urllib2用于提交http请求,beauthulsoup用于解析html。您肯定需要一个http请求库,而且您可能还需要BeautifulSoup,具体取决于您想要做什么。在
BeautifulSoup
非常容易使用,并且能够很好地解析断开的html,因此对于获取页面上任何javascript的链接非常有用(即使在html格式错误的情况下也是如此)。然后,您将需要其他东西来解析javascript,以确定它是否与cookies交互。在要查看客户端上的cookie值是什么,只需查看http请求头或使用
cookielib
(尽管我个人没有使用过这个库)。在对于http请求,我建议使用
requests
库,查看http请求头将非常简单:我怀疑
requests
也有一个访问头的Set-Cookie
值的快捷方式,但是您需要研究一下。在我不认为你需要
BeautifulSoup
来做这个。您可以使用urllib2
进行连接,使用cookielib
对cookies进行操作。在您不需要bs4来实现此目的,因为您只需要来自cookies的信息。(只有在最终需要从html代码中提取内容时才使用bs4)。在
对于cookies,我将使用python请求及其对http会话的支持:http://docs.python-requests.org/en/latest/user/advanced/
相关问题 更多 >
编程相关推荐