如何使用BeautifulSoup获得正确的html代码来使用Python进行刮取?

2024-04-25 21:03:42 发布

您现在位置:Python中文网/ 问答频道 /正文

出于教育目的,我想使用python来创建Facebook广告库

例如,假设我想刮this page

当我检查元素时,我会看到各种类型的div,可以用来提取信息。 但是当我尝试使用BeautifulSoup获取这个页面的html代码时,我得到的代码与我在检查元素时看到的完全不同

This is what I get.

这是我的代码:

import requests
from bs4 import BeautifulSoup
r = requests.get("https://www.facebook.com/ads/library/?active_status=all&ad_type=all&country=ALL&impression_search_field=has_impressions_lifetime&view_all_page_id=51212153078&sort_data[direction]=desc&sort_data[mode]=relevancy_monthly_grouped")
c=r.content
soup = BeautifulSoup(c,"html.parser")
print(soup.prettify())

您知道如何通过检查页面来访问我看到的代码吗?非常感谢

另外,正如你所看到的,我对编码非常陌生,因此如果你对如何更好地共享我刚刚链接的代码有任何建议,我将非常乐意学习如何做,并相应地编辑我的帖子


Tags: 代码import目的元素datagetfacebookhtml