很难输出多行，xPath问题？

class Bitorg(scrapy.Spider): name = "bitorg" allowed_domains = ["bitcointalk.org"] start_urls = [ "https://bitcointalk.org/index.php?topic=1209137.0" ] def parse(self, response): for sel in response.xpath('..//html/body'): item = BitorgItem() item['author'] = sel.xpath('.//b/a[@title]').extract() item['date'] = sel.xpath('.//td[@valign="middle"]/div[@class="smalltext"]').extract() item['post'] = sel.xpath('.//div[@class="post"]').extract() yield item

2条回答

网友

1楼 · 编辑于 2024-04-26 09:25:55

虽然<table>、<tbody>和<tr>元素没有可以轻松选择的属性，但是每个post都有一个<td>类poster_info。你知道吗

要获得所有文章的列表，请在<td>上选择，并使用xpath ..符号向上移动树。你知道吗

posts = response.xpath('//*[@class="poster_info"]/..')

在每个帖子中，选择感兴趣的子元素。你知道吗

for post in posts:
    author = ''.join(post.xpath('.//td[@class="poster_info"]/.//b/a/.//text()').extract())
    title = ''.join(post.xpath('.//div[@class="subject"]/.//a/.//text()').extract())
    date = ''.join(post.xpath('.//div[@class="subject"]/following-sibling::div/.//text()').extract())

    print '%s, %s, %s' % (author, title, date)

网友

2楼 · 编辑于 2024-04-26 09:25:55

你知道所有的代码只是一个大div里面有一个小表以及作者的XPath

/html/body/div[2]/form/table[1]/tbody/tr[1]/td/table/tbody/tr/td/table/tbody/tr[1]/td[1]/b/a
/html/body/div[2]/form/table[1]/tbody/tr[5]/td/table/tbody/tr/td/table/tbody/tr[1]/td[1]/b/a
/html/body/div[2]/form/table[1]/tbody/tr[6]/td/table/tbody/tr/td/table/tbody/tr[1]/td[1]/b/a

你可以用这个刮东西

l = XPathItemLoader(item = JustDialItem(),response = response)
for i in range(1,10):
        l.add_xpath('content1','//*[@id="bodyarea"]/form/table[1]/tbody/tr['+str(i)+']/td/table/tbody/tr/td/table/tbody/tr[1]/td[1]/b/a/text()')
        l.add_xpath('content2','//*[@id="bodyarea"]/form/table[1]/tbody/tr['+str(i)+']/td/table/tbody/tr/td/table/tbody/tr[1]/td[1]/b/a/text()')
        l.add_xpath('content3','//*[@id="bodyarea"]/form/table[1]/tbody/tr['+str(i)+']/td/table/tbody/tr/td/table/tbody/tr[1]/td[1]/b/a/text()')

同样的方法，你也可以做的日期和职位

相关问题更多 >

编程相关推荐

热门问题

热门文章