漂亮的搜刮网页多个网页网址不改变

2024-04-26 21:27:58 发布

您现在位置：Python中文网/ 问答频道 /正文

7794

网友

男 | 程序猿一只，喜欢编程写python代码。

当使用美丽的汤，以网络垃圾评论我有一个问题，当谈到“所有观众”的评论。更改审阅列表页时，URL不会更新。你知道吗

举个例子： https://www.rottentomatoes.com/m/midsommar/reviews?type=user

单击“下一步”时，不会更改URL。你知道吗

基于我在跟踪xhr请求的另一个线程中提供的一些其他答案（我可能会说这是错误的），我相信正在运行的确切脚本就是我在图片中突出显示的（我没有10个声誉，所以不能发布图像）。你知道吗

Network Method Post

当我查看GET操作的标题时，我会看到一个请求URL，当我尝试让它包含我所需的所有信息时，问题是我不知道它们进入下一页的命名约定。下面是页面之间requesturl的变化。你知道吗

Request URL page 1->2

Request URL page 2->3

我怎样才能得到漂亮的汤来重复这些呢？你知道吗

谢谢！你知道吗

下面应该有足够的代码通过尝试获取，忽略一些命名。你知道吗

from bs4 import BeautifulSoup as soup
from urllib.request import Request, urlopen

x = input('What Movie?').replace(" ", "_").lower()

req_rot = Request('https://www.rottentomatoes.com/m/' + str(x) + '/reviews?type=user', headers={'User-Agent': 'Mozilla/5.0'})

webpage_rot = urlopen(req_rot).read()

page_soup_rot = soup(webpage_rot, "html.parser")

reviews_rot = page_soup_rot.findAll("div",{"class":"audience-reviews__review-wrap"})

z_rot = re.findall(r'js-clamp"(.+)</p>', str(reviews_rot))

Movie_Adj_rot = re.sub("[^\w]", " ",  str(z_rot)).split()

Tags： https com url request www type page 评论

1条回答

网友

1楼 · 发布于 2024-04-26 21:27:58

对这个问题更好的描述是窗口分页，我发现的最简单的解决方案是学习selenium，在单击每个页面上的next button元素的范围循环中插入scrape函数。你知道吗

漂亮的搜刮网页多个网页网址不改变

相关问题更多 >

编程相关推荐

热门问题

热门文章

漂亮的搜刮网页多个网页网址不改变

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >