漂亮的搜刮网页多个网页网址不改变

2024-04-26 21:27:58 发布

您现在位置:Python中文网/ 问答频道 /正文

当使用美丽的汤,以网络垃圾评论我有一个问题,当谈到“所有观众”的评论。更改审阅列表页时,URL不会更新。你知道吗

举个例子: https://www.rottentomatoes.com/m/midsommar/reviews?type=user

单击“下一步”时,不会更改URL。你知道吗

基于我在跟踪xhr请求的另一个线程中提供的一些其他答案(我可能会说这是错误的),我相信正在运行的确切脚本就是我在图片中突出显示的(我没有10个声誉,所以不能发布图像)。你知道吗

Network Method Post

当我查看GET操作的标题时,我会看到一个请求URL,当我尝试让它包含我所需的所有信息时,问题是我不知道它们进入下一页的命名约定。下面是页面之间requesturl的变化。你知道吗

Request URL page 1->2

Request URL page 2->3

我怎样才能得到漂亮的汤来重复这些呢?你知道吗

谢谢!你知道吗

下面应该有足够的代码通过尝试获取,忽略一些命名。你知道吗

from bs4 import BeautifulSoup as soup
from urllib.request import Request, urlopen

x = input('What Movie?').replace(" ", "_").lower()

req_rot = Request('https://www.rottentomatoes.com/m/' + str(x) + '/reviews?type=user', headers={'User-Agent': 'Mozilla/5.0'})

webpage_rot = urlopen(req_rot).read()

page_soup_rot = soup(webpage_rot, "html.parser")

reviews_rot = page_soup_rot.findAll("div",{"class":"audience-reviews__review-wrap"})

z_rot = re.findall(r'js-clamp"(.+)</p>', str(reviews_rot))

Movie_Adj_rot = re.sub("[^\w]", " ",  str(z_rot)).split()


Tags: httpscomurlrequestwwwtypepage评论