Python爬虫程序从表中提取数据

import requests import math import csv from bs4 import BeautifulSoup HotelNames = ['grand-hyatt-taipei'] with open('agoda_hotel_reviews.csv', 'w') as csvfile: for iHotel in HotelNames: url = "http://www.agoda.com/"+iHotel+"/hotel/taipei-tw.html" res = requests.get(url) soup = BeautifulSoup(res.text, 'html.parser') table_review = soup.find("table", {"class" : "customer-review-category-issues"}) record_rev = [] for row in table_review.findAll('tr'): col = row.findAll('td') rev_issue = col[1].string.split('\n').strip()[0] rev_count = col[1].string.split('\n').strip()[1] record_rev.extend([rev_issue], [rev_count]) filewriter = csv.writer(csvfile, delimiter='|', lineterminator='\n') filewriter.writerow(record_rev)

1条回答

网友

1楼 · 发布于 2024-05-31 23:44:27

问题是：评论和页面的其他部分会随着对服务API的附加XHR请求而动态加载。如果打开开发人员工具并仅过滤XHR请求，您将看到：

如果您计划继续使用requests+BeautifulSoup，那么您可能会对模拟对“GetReviewScore”和“GetReviewComments”端点的请求感兴趣。在

或者，您可以采用一种更“高级”的方法，使用^{}使真正的浏览器自动化。在

相关问题更多 >

编程相关推荐

热门问题

热门文章