抓取交互式网站

1条回答

网友

1楼 · 发布于 2024-05-13 19:23:12

要获得注册计数，您必须模拟对特定课程id的https://www.udacity.com/api/summaries端点的API请求，该id可以从URL本身提取出来—例如，它是https://www.udacity.com/course/javascript-promises ud898URL的ud898。在

完整的卡盘：

import json

import re
from urllib import quote_plus

import scrapy


class UdacityItem(scrapy.Item):
    name = scrapy.Field()
    users = scrapy.Field()


class DmozSpider(scrapy.Spider):
    name = "UdSpider"
    allowed_domains = ["udacity.com"]
    start_urls = ["https://www.udacity.com/courses/all"]

    def parse(self, response):
        sites = response.xpath('//h3/a')
        for s in sites:
            t = UdacityItem()
            # name & url
            t['name'] = s.xpath('text()').extract()[0].strip()
            url = response.urljoin(s.xpath('@href').extract()[0])
            # request
            req = scrapy.Request(url, callback=self.second)
            req.meta['item'] = t
            # execute
            yield req

    def second(self, response):
        queries = [{
            "limit": 1,
            "model": "CourseStudentsSummary",
            "locator": {
                "sample_frequency": "daily",
                "content_context": [{
                    "node_key": re.search(r' (.*?)$', response.url).group(1)
                }]
            }
        }]
        yield scrapy.Request(method="GET",
                             url="https://www.udacity.com/api/summaries?queries=" + quote_plus(json.dumps(queries)),
                             callback=self.parse_totals)

    def parse_totals(self, response):
        print(json.loads(response.body[5:].strip())["summaries"]["default"][0]["data"]["total_enrollments"])

相关问题更多 >

编程相关推荐

热门问题

热门文章

抓取交互式网站

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >