在解析数组中添加垃圾请求URL

2024-04-25 07:05:28 发布

男 | 程序猿一只，喜欢编程写python代码。

我正在使用下面的垃圾代码，这是充分发挥作用，从一个网站抓取数据。scraper输入产品id的文本列表，在第10行生成URL。如何将当前起始url作为附加元素添加到项目数组？在

from scrapy.spider import Spider
from scrapy.selector import Selector
from site_scraper.items import SiteScraperItem

class MySpider(Spider):
    name = "product"
    allowed_domains = ["site.com"]
    url_list = open("productIDs.txt")
    base_url = "http://www.site.com/p/"
    start_urls = [base_url + url.strip() for url in url_list.readlines()]
    url_list.close()

def parse(self, response):
    hxs = Selector(response)
    titles = hxs.xpath("//span[@itemprop='name']")
    items = []
    item = SiteScraperItem()
    item ["Classification"] = titles.xpath("//div[@class='productSoldMessage']/text()").extract()[1:]
    item ["Price"] = titles.xpath("//span[@class='pReg']/text()").extract()
    item ["Name"] = titles.xpath("//span[@itemprop='name']/text()").extract()
    try:
        titles.xpath("//link[@itemprop='availability']/@href").extract()[0] == 'http://schema.org/InStock'
        item ["Availability"] = 'In Stock'
    except:
        item ["Availability"] = 'Out of Stock'
    if len(item ["Name"]) == 0:
        item ["OnlineStatus"] = 'Offline'
        item ["Availability"] = ''
    else:
        item ["OnlineStatus"] = 'Online'
    items.append(item)
    return items

我正在使用下面的命令行代码将此数据导出到CSV，并希望URL在我的CSV文件中是一个附加值。在

scrapy crawl product -o items.csv -t csv

提前感谢您的帮助！在

Tags： name from import url site extract items item

1条回答

网友

1楼 · 发布于 2024-04-25 07:05:28

将新的^{}添加到您的SiteScraperItem^{}类中，并在parse()方法中将其设置为^{}。在

在解析数组中添加垃圾请求URL

相关问题更多 >

编程相关推荐

热门问题

热门文章

在解析数组中添加垃圾请求URL

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >