Scrapy spider输出empy csv fi

2024-04-19 13:39:11 发布

您现在位置:Python中文网/ 问答频道 /正文

这是我在这里的第一个问题,我正在学习如何自己编码,所以请容忍我。你知道吗

我正在做最后一个CS50项目,我正试图建立一个网站,从网上收集西班牙语课程edx.org网站以及其他开放的在线课程网站。我正在使用scrapy框架来删除上西班牙语课程的过滤结果edx.org网站... 这是我的第一个scrapy蜘蛛,我试图在每个课程链接,然后得到它的名字(在我得到正确的代码,也得到描述,课程网址和更多的东西)。你知道吗

from scrapy.item import Field, Item
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractor import LinkExtractor
from scrapy.loader import ItemLoader

class Course_item(Item):
    name = Field()
    #description = Field()
    #img_url = Field()


class Course_spider(CrawlSpider):
    name = 'CourseSpider'
    allowed_domains = ['https://www.edx.org/']
    start_urls = ['https://www.edx.org/course/?language=Spanish']

    rules = (Rule(LinkExtractor(allow=r'/course'), callback='parse_item', follow='True'),)

    def parse_item(self, response):
        item = ItemLoader(Course_item, response)
        item.add_xpath('name', '//*[@id="course-intro-heading"]/text()')

        yield item.load_item()

当我用“脏兮兮的runspider”跑蜘蛛的时候edxSpider.py文件-o电子数据交换.csv-t csv“我得到一个空的csv文件,我也认为是没有进入正确的西班牙语课程的结果。你知道吗

基本上我想在每个课程中得到这个链接edx Spanish courses,并得到名称、描述、提供者、页面url和img url。你知道吗

你知道为什么会出问题吗?你知道吗


Tags: csvnamefromorgimporturlfield网站
3条回答

你不能用一个简单的请求来获取edx内容,它使用javascript呈现来动态获取course元素,所以CrawlSpider在这种情况下不起作用,因为你需要在响应体中找到特定的元素来生成一个新的请求来获取你需要的内容。你知道吗

真正的请求(获取课程的url)是this one,但是您需要从前面的响应主体生成它(尽管您可以访问它并获取正确的数据)。你知道吗

因此,要生成真正的请求,需要位于script标记中的数据:

from scrapy import Spider
import re
import json

class Course_spider(Spider):
    name = 'CourseSpider'
    allowed_domains = ['edx.org']
    start_urls = ['https://www.edx.org/course/?language=Spanish']

    def parse(self, response):
        script_text = response.xpath('//script[contains(text(), "Drupal.settings")]').extract_first()
        parseable_json_data = re.search(r'Drupal.settings, ({.+})', script_text).group(1)
        json_data = json.loads(parseable_json_data)
        ...

现在您在json_data上有了所需的内容,只需创建字符串URL。你知道吗

此页面使用JavaScript从服务器获取数据并添加到页面。你知道吗

它使用的网址像

https://www.edx.org/api/catalog/v2/courses/course-v1:IDBx+IDB33x+3T2017

最后一部分是课程编号,您可以在HTML中找到

<main id="course-info-page" data-course-id="course-v1:IDBx+IDB33x+3T2017">

代码

from scrapy.http import Request
from scrapy.item import Field, Item
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractor import LinkExtractor
from scrapy.loader import ItemLoader
import json

class Course_spider(CrawlSpider):

    name = 'CourseSpider'
    allowed_domains = ['www.edx.org']
    start_urls = ['https://www.edx.org/course/?language=Spanish']

    rules = (Rule(LinkExtractor(allow=r'/course'), callback='parse_item', follow='True'),)

    def parse_item(self, response):
        print('parse_item url:', response.url)

        course_id = response.xpath('//*[@id="course-info-page"]/@data-course-id').extract_first()

        if course_id:
            url = 'https://www.edx.org/api/catalog/v2/courses/' + course_id
            yield Request(url, callback=self.parse_json)

    def parse_json(self, response):
        print('parse_json url:', response.url)

        item = json.loads(response.body)

        return item

from scrapy.crawler import CrawlerProcess

c = CrawlerProcess({
    'USER_AGENT': 'Mozilla/5.0',
    'FEED_FORMAT': 'csv',     # csv, json, xml
    'FEED_URI': 'output.csv', #     
})
c.crawl(Course_spider)
c.start()
from scrapy.http import Request
from scrapy import Spider
import json


class edx_scraper(Spider):

name = "edxScraper"
start_urls = [
    'https://www.edx.org/api/v1/catalog/search?selected_facets[]=content_type_exact%3Acourserun&selected_facets[]=language_exact%3ASpanish&page=1&page_size=9&partner=edx&hidden=0&content_type[]=courserun&content_type[]=program&featured_course_ids=course-v1%3AHarvardX+CS50B+Business%2Ccourse-v1%3AMicrosoft+DAT206x+1T2018%2Ccourse-v1%3ALinuxFoundationX+LFS171x+3T2017%2Ccourse-v1%3AHarvardX+HDS2825x+1T2018%2Ccourse-v1%3AMITx+6.00.1x+2T2017_2%2Ccourse-v1%3AWageningenX+NUTR101x+1T2018&featured_programs_uuids=452d5bbb-00a4-4cc9-99d7-d7dd43c2bece%2Cbef7201a-6f97-40ad-ad17-d5ea8be1eec8%2C9b729425-b524-4344-baaa-107abdee62c6%2Cfb8c5b14-f8d2-4ae1-a3ec-c7d4d6363e26%2Ca9cbdeb6-5fc0-44ef-97f7-9ed605a149db%2Cf977e7e8-6376-400f-aec6-84dcdb7e9c73'
]

def parse(self, response):
    data = json.loads(response.text)
    for course in data['objects']['results']:
        url = 'https://www.edx.org/api/catalog/v2/courses/' + course['key']
        yield response.follow(url, self.course_parse)

    if 'next' in data['objects'] is not None:
        yield response.follow(data['objects']['next'], self.parse)

def course_parse(self, response):
    course = json.loads(response.text)
    yield{
        'name': course['title'],
        'effort': course['effort'],
    }

相关问题 更多 >