刮网时如何使用FindAll

import pandas as pd from pandas import ExcelWriter from pandas import ExcelFile import urllib.request from bs4 import BeautifulSoup #BaseURL, Syntax1 and Syntax2 should be standard across all #Ebay URLs, whereas Request and PageNumber can change BaseURL = "https://www.ebay.co.uk/sch/i.html?_from=R40&_sacat=0&_nkw=" Syntax1 = "&_skc=50&rt=nc" Request = "xbox" Syntax2 = "&_pgn=" PageNumber ="2" URL = BaseURL + Request + Syntax2 + PageNumber + Syntax1 print (URL) HTML = urllib.request.urlopen(URL).read() #print(HTML) soup=b(HTML,"html.parser") #print (soup) for post in soup.findAll('a'): print (post.get('href'))

1条回答

网友

1楼 · 发布于 2024-04-25 07:40:13

使用css选择器，速度更快。你知道吗

import requests
from bs4 import  BeautifulSoup

url = 'https://www.ebay.co.uk/sch/i.html?_from=R40&_sacat=0&_nkw=xbox&_pgn=2&_skc=50&rt=nc'
Res = requests.get(url)
soup = BeautifulSoup(Res.text,'html.parser')
for post in soup.select("#ListViewInner a"):
    print(post.get('href'))

使用format()函数而不是串联字符串。你知道吗

import pandas as pd
from pandas import ExcelWriter
from pandas import ExcelFile
import urllib.request
from bs4 import BeautifulSoup

BaseURL = "https://www.ebay.co.uk/sch/i.html?_from=R40&_sacat=0&_nkw={}&_pgn={}&_skc={}&rt={}"

skc = "50"
rt = "nc"
Request = "xbox"
PageNumber = "2"

URL = BaseURL.format(Request,PageNumber,skc,rt)
print(URL)
HTML = urllib.request.urlopen(URL).read()
soup = BeautifulSoup(HTML,"html.parser")
for post in soup.select('#ListViewInner a'):
    print(post.get('href'))

相关问题更多 >

编程相关推荐

热门问题

热门文章