与Scrapy链接的Webscrape

<section class="test"> <div class="Testclass"> <form id="Form" name="FormName" method="get" action="#plpPaginationAnchor"> <select id="pageSelectionBottom" name="page"> <option value="0" disabled="" selected=""> Seite 1 von 2</option> <option value="1">2</option> </select> <input type="hidden" name="sort" value="code-asc"> <input type="hidden" name="q" value=":code-asc"> <a class="nextpage" href="**LINK**" data-action="next" data-flight="control"> <i class="icon="Next"></i> </a> </form>

3条回答

网友

1楼 · 编辑于 2024-05-21 02:30:38

下面是如何在scrapy shell中执行：

> from scrapy.http import HtmlResponse
> 
> response = HtmlResponse(url="Test HTML String", body='<section class="test"><div class="Testclass"><form id="Form" name="FormName" method="get" action="#plpPaginationAnchor"><select id="pageSelectionBottom" name="page"><option value="0" disabled="" selected="">Seite&nbsp;1&nbsp;von&nbsp;2</option><option value="1">2</option></select><input type="hidden" name="sort" value="code-asc"><input type="hidden" name="q" value=":code-asc"><a class="nextpage" href="**LINK**" data-action="next" data-flight="control"><i class="icon="Next"></i></a></form>', encoding='utf-8')
> 
> response.css('a::attr(href)').extract_first()

网友

2楼 · 编辑于 2024-05-21 02:30:38

好吧，当我试着用：响应.css（“section>；div>；form>；a:：attr（href）”）.extract\u first（）获取链接。我不知道现在这是不是最好的解决方案，但它很管用

网友

3楼 · 编辑于 2024-05-21 02:30:38

你试过把BeautifulSoup和requests一起使用吗？你知道吗

下面是使用此模块的示例：

    import requests
    from bs4 import BeautifulSoup as bs

    l = requests.get(search)
    page = l.text
    soup= bs(page,'html.parser')
    link = soup.findAll('a',attrs={'class':'nextpage'})

像这样的东西，我用的是我的作品，我可能要编辑这篇文章以后，但使用bs4和requests仍然是一个有效的方法。你知道吗

你可能不想做findAll如果有一个以上的<a>，如果他们有相同的类（例如youtube对每个视频都有这个类，使用findall将获得每个视频url进行搜索），它将检索链接

相关问题更多 >

编程相关推荐

热门问题

热门文章