BeautifulSoup 爬虫的 cookies

0 投票

3 回答

5523 浏览

提问于 2025-04-18 19:33

我被分配了一个任务，要创建一个可以检查整个网站的工具，这个工具会收集页面上的所有cookie数据，并根据这些cookie是否遵循用户数据进行分类。我对Python还不太熟悉，但我觉得这个项目对我来说很不错。请问beautifulsoup这个工具适合用来做这个吗？我们有很多网站，现在正在迁移到Drupal，所以这个工具需要能够扫描Polopoly CMS和Drupal。

web scraping beautifulsoup drupal cookies user data compliance polopoly cms

3 个回答

-1

我觉得你不需要用 BeautifulSoup 来处理这个问题。你可以用 urllib2 来建立连接，用 cookielib 来处理 cookies（小数据文件）。

回答于 2025-04-18 由 Python大师

分享举报

Urllib2是用来发送http请求的，而BeautifulSoup是用来解析html的。你肯定需要一个http请求的库，具体是否需要BeautifulSoup要看你想做什么。

BeautifulSoup使用起来非常简单，而且能很好地解析有问题的html，所以它很适合用来抓取网页上任何javascript的链接（即使html有点乱也没关系）。不过，你还需要其他工具来解析这些javascript，看看它们是否在和cookies互动。

如果你想查看客户端的cookie值，只需要看看http请求的头部，或者使用cookielib（不过我个人没用过这个库）。

对于http请求，我推荐使用requests库，查看http请求头部的方式非常简单：

response = requests.get(url)
header   = response.headers

我怀疑requests也有快捷方式可以直接访问头部的Set-Cookie值，不过你需要自己去查一下。

回答于 2025-04-18 由 Python大师

分享举报

-2

你不需要用到bs4这个库，因为你只需要从cookies中获取信息。（只有在你最终需要从html代码中提取东西时，才用bs4）。

关于cookies的处理，我建议使用python-request库，它支持http会话：http://docs.python-requests.org/en/latest/user/advanced/

回答于 2025-04-18 由 Python大师

分享举报

BeautifulSoup 爬虫的 cookies

3 个回答

撰写回答