当使用美丽的汤,以网络垃圾评论我有一个问题,当谈到“所有观众”的评论。更改审阅列表页时,URL不会更新。你知道吗
举个例子: https://www.rottentomatoes.com/m/midsommar/reviews?type=user
单击“下一步”时,不会更改URL。你知道吗
基于我在跟踪xhr请求的另一个线程中提供的一些其他答案(我可能会说这是错误的),我相信正在运行的确切脚本就是我在图片中突出显示的(我没有10个声誉,所以不能发布图像)。你知道吗
当我查看GET操作的标题时,我会看到一个请求URL,当我尝试让它包含我所需的所有信息时,问题是我不知道它们进入下一页的命名约定。下面是页面之间requesturl的变化。你知道吗
我怎样才能得到漂亮的汤来重复这些呢?你知道吗
谢谢!你知道吗
下面应该有足够的代码通过尝试获取,忽略一些命名。你知道吗
from bs4 import BeautifulSoup as soup
from urllib.request import Request, urlopen
x = input('What Movie?').replace(" ", "_").lower()
req_rot = Request('https://www.rottentomatoes.com/m/' + str(x) + '/reviews?type=user', headers={'User-Agent': 'Mozilla/5.0'})
webpage_rot = urlopen(req_rot).read()
page_soup_rot = soup(webpage_rot, "html.parser")
reviews_rot = page_soup_rot.findAll("div",{"class":"audience-reviews__review-wrap"})
z_rot = re.findall(r'js-clamp"(.+)</p>', str(reviews_rot))
Movie_Adj_rot = re.sub("[^\w]", " ", str(z_rot)).split()
对这个问题更好的描述是窗口分页,我发现的最简单的解决方案是学习selenium,在单击每个页面上的next button元素的范围循环中插入scrape函数。你知道吗
相关问题 更多 >
编程相关推荐