python中爬虫程序的分页xpath

2024-04-27 03:38:40 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在用python中的scrapy开发一个爬虫程序,我几乎完成了,只是有一个小问题。 使用这样的分页方式的网站:

<div class="pagination toolbarbloc">
            <ul>
                    <li class="active"><span>1</span></li>
                    <li><a href="...">2</a></li>
                    <li><a href="...">3</a></li>
                    <li><a href="...">4</a></li>
                    <li><a href="...">5</a></li>
                    <li><a class="end" href="...">>></li>
            </ul>
        </div>

所以我试着用class“active”在li之后捕捉应答器li的“href”。在

我试着这样做:

^{2}$

但没用:索引器错误:列表索引超出范围

我只是从xpath开始,我知道它很简单,但是在阅读了大量的doc'之后,我并没有成功。在

非常感谢那些帮助我的人!在


Tags: 程序div网站方式paginationliul爬虫
1条回答
网友
1楼 · 发布于 2024-04-27 03:38:40

尝试以下表达式:

//div[@class="pagination toolbarbloc"]/ul/li[@class="active"]/following-sibling::li/a/@href

请注意,您错过了[class="pagination toolbarbloc"]中的@,并且{}不是{}的兄弟

相关问题 更多 >