匹配结果碎片的html输出（跳过第一个匹配）

def parse(self, response): ''' get the first page of results. ''' SET_SELECTOR = 'b_algo' for bresult in response.css(SET_SELECTOR): NAME_SELECTOR = 'h2 a ::text' yield { 'name': bresult.css(NAME_SELECTOR).extract_first(), } ''' get the further pages of results. ''' #<<NEXT_PAGE_SELECTOR here>>

2条回答

网友

1楼 · 编辑于 2024-04-25 22:33:14

是的，这是正确的：

$ scrapy shell
In[1]: foo = """<ul class="sb_pagF" aria-label="More pages with results">
<li>
          <a title="Next page" class="sb_pagN" href="/search?q=site%3asite.com&amp;first=11&amp;FORM=PORE">
            <div class="sw_next">Next
            </div>
          </a>
</li>
</ul>"""
In [2]: from scrapy import Selector
In [3]: sel = Selector(text=foo)
In [4]: sel.css('.sb_pagF li a ::attr(href)').extract()
Out[1]: [u'/search?q=site%3asite.com&first=11&FORM=PORE']

网友

2楼 · 编辑于 2024-04-25 22:33:14

您可以始终在指向本地html的Scrapy Shell中测试选择器：

$ cat index.html
<ul class="sb_pagF" aria-label="More pages with results">
    <li>
        <a title="Next page" class="sb_pagN" href="/search?q=site%3asite.com&amp;first=11&amp;FORM=PORE">
            <div class="sw_next">Next
            </div>
        </a>
    </li>
</ul>
$ scrapy shell file://$PWD/index.html
In [1]: response.css(".sb_pagF li a ::attr(href)").extract_first()
Out[1]: u'/search?q=site%3asite.com&first=11&FORM=PORE'

相关问题更多 >

编程相关推荐

热门问题

热门文章

匹配结果碎片的html输出（跳过第一个匹配）

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >