的正确divclass组合汤。选择()

import pandas as pd from urllib.parse import urljoin import requests base = "http://www.reed.co.uk/jobs" url = "http://www.reed.co.uk/jobs?datecreatedoffset=Today&pagesize=100" r = requests.get(url).content soup = BShtml(r, "html.parser") df = pd.DataFrame(columns=["links"], data=[urljoin(base, a["href"]) for a in soup.select("div.pages a.page")]) df

result_set = [] loopbasepref = 'http://www.reed.co.uk/jobs?cached=True&pageno=' loopbasesuf = '&datecreatedoffset=Today&pagesize=100' for pnum in range(1,pagenum): url = loopbasepref + str(pnum) + loopbasesuf r = requests.get(url).content soup = BShtml(r, "html.parser") df2 = pd.DataFrame(columns=["links"], data=[urljoin(base, a["href"]) for a in soup.select("div", class_="results col-xs-12 col-md-10")]) result_set.append(df2) print(df2)

1条回答

网友

1楼 · 发布于 2024-06-07 10:02:41

您可以一直循环，直到没有下一页：

import  requests
from bs4 import BeautifulSoup
from urllib.parse import  urljoin

base = "http://www.reed.co.uk"
url = "http://www.reed.co.uk/jobs?datecreatedoffset=Today&pagesize=100"

def all_urls():
    r = requests.get(url).content
    soup = BeautifulSoup(r, "html.parser")
    # get the urls from the first page
    yield  [urljoin(base, a["href"]) for a in soup.select("div.details h3.title a[href^=/jobs]")]
    nxt = soup.find("a", title="Go to next page")
    # title="Go to next page" is missing when there are no more pages
    while nxt:
        # wash/repeat until no more pages
        r = requests.get(urljoin(base, nxt["href"])).content
        soup = BeautifulSoup(r, "html.parser")
        yield  [urljoin(base, a["href"]) for a in soup.select("div.details h3.title a[href^=/jobs]")]
        nxt = soup.find("a", title="Go to next page")

只需循环生成器函数，即可从每个页面获取URL：

^{pr2}$

我还在选择器中使用a[href^=/jobs]，因为有其他匹配的标记，所以我们确保只提取作业路径。在

在您自己的代码中，使用选择器的正确方法是：

soup.select("div.results.col-xs-12.col-md-10")

您的语法用于find或find\u all，其中您将class_=...用于css类：

soup.find_all("div", class_="results col-xs-12 col-md-10")

但无论如何，这都不是正确的选择。在

如果您不确定为什么要创建多个dfs：

def all_urls():
    r = requests.get(url).content
    soup = BeautifulSoup(r, "html.parser")
    yield pd.DataFrame([urljoin(base, a["href"]) for a in soup.select("div.details h3.title a[href^=/jobs]")],
                       columns=["Links"])
    nxt = soup.find("a", title="Go to next page")
    while nxt:
        r = requests.get(urljoin(base, nxt["href"])).content
        soup = BeautifulSoup(r, "html.parser")
        yield pd.DataFrame([urljoin(base, a["href"]) for a in soup.select("div.details h3.title a[href^=/jobs]")],
                           columns=["Links"])
        nxt = soup.find("a", title="Go to next page")


dfs = list(all_urls())

这会给你一个dfs列表：

In [4]: dfs = list(all_urls())
dfs[0].head()
In [5]: dfs[0].head(10)
Out[5]: 
                                               Links
0  http://www.reed.co.uk/jobs/tufting-manager/308...
1  http://www.reed.co.uk/jobs/financial-services-...
2  http://www.reed.co.uk/jobs/head-of-finance-mul...
3  http://www.reed.co.uk/jobs/class-1-drivers-req...
4  http://www.reed.co.uk/jobs/freelance-middlewei...
5  http://www.reed.co.uk/jobs/sage-200-consultant...
6  http://www.reed.co.uk/jobs/bereavement-support...
7  http://www.reed.co.uk/jobs/property-letting-ma...
8  http://www.reed.co.uk/jobs/graduate-recruitmen...
9  http://www.reed.co.uk/jobs/solutions-delivery-...

但是如果您只想要一个，那么使用带有itertools.chain的原始代码：

 from itertools import chain
 df = pd.DataFrame(columns=["links"], data=list(chain.from_iterable(all_urls())))

这将为您提供一个df中的所有链接：

In [7]:  from itertools import chain
   ...:  df = pd.DataFrame(columns=["links"], data=list(chain.from_iterable(all_
   ...: urls())))
   ...: 

In [8]: df.size
Out[8]: 675

相关问题更多 >

编程相关推荐

热门问题

热门文章