清洁Python碎屑输出

2024-04-26 12:51:08 发布

您现在位置:Python中文网/ 问答频道 /正文

我需要帮助清理Python垃圾输出。我有以下简单的spider,它获取元素的内容。在

class ScrapyscrapSpider (BaseSpider) :
  name = "ss"
  allowed_domains = ["purecss.io"]
  start_urls = ['http://purecss.io/tables/']

  def parse(self, response) :
    sel = Selector (response)
    item = ScrapscrapyItem ()
    item['Heading'] = str (sel.xpath('/html/body/div[2]/div/div[1]/div/div[1]/h1').extract ())
    item['Content'] = str (sel.xpath ('//table[@class = "pure-table"]//tr[1]/td[2]').extract ())
    item['Source_Website'] = "http://purecss.io"
    return item

命令

^{pr2}$

输出

Content,Heading,Source_Website
"[u'<td>Honda</td>', u'<td>Honda</td>']",,

我只想把“本田”打印到csv文件中,其他的都删除。在

摘录()[1]还是给我“[u'Honda',u'Honda']”


Tags: iodivhttpresponseextractcontentitemxpath