我再次有一个问题提取一个特定的链接与刮。以下是HTML摘录:
<section class="test">
<div class="Testclass">
<form id="Form" name="FormName" method="get" action="#plpPaginationAnchor">
<select id="pageSelectionBottom" name="page">
<option value="0" disabled="" selected="">
Seite 1 von 2</option>
<option value="1">2</option>
</select>
<input type="hidden" name="sort" value="code-asc">
<input type="hidden" name="q" value=":code-asc">
<a class="nextpage" href="**LINK**" data-action="next" data-flight="control">
<i class="icon="Next"></i>
</a>
</form>
我需要href标签中的链接。除此之外,我还尝试了以下方法:
url = response.css('div.testclass > a::attr(href)').extract_first()
如果有人能在这里帮助我,我将非常感激。你知道吗
下面是如何在scrapy shell中执行:
好吧,当我试着用:响应.css(“section>;div>;form>;a::attr(href)”).extract\u first()获取链接。我不知道现在这是不是最好的解决方案,但它很管用
你试过把
BeautifulSoup
和requests
一起使用吗?你知道吗下面是使用此模块的示例:
像这样的东西,我用的是我的作品,我可能要编辑这篇文章以后,但使用
bs4
和requests
仍然是一个有效的方法。你知道吗你可能不想做
findAll
如果有一个以上的<a>
,如果他们有相同的类(例如youtube对每个视频都有这个类,使用findall将获得每个视频url进行搜索),它将检索链接相关问题 更多 >
编程相关推荐