我试图从下一页解析Amazon标准标识号(ASIN)。你知道吗
https://www.amazon.com/dp/B075GYWPCJ
但是,我无法从scrapy
响应中选择包含ASIN的表。如何选择表以便分析表中的数据?你知道吗
import scrapy
from scrapy.crawler import CrawlerProcess
class AmazonSpider(scrapy.Spider):
name = 'amazon.com'
def start_requests(self):
yield scrapy.Request('https://www.amazon.com/dp/B075GYWPCJ', self.parse)
def parse(self, response):
# This works.. :)
print(response.xpath('//table[@id="HLCXComparisonTable"]'))
# This doesn't work.. :(
print(response.xpath('//table[@id="productDetails_detailBullets_sections1"]'))
process = CrawlerProcess()
process.crawl(AmazonSpider)
process.start()
在Amazon上,很多东西都是动态加载的。打开页面时,您试图获取的表不会加载到DOM中。您需要以某种方式触发页面来加载该内容,以便获取它。你知道吗
相关问题 更多 >
编程相关推荐