用beautifulsoup获取网页抓取

def spider(max_pages): page = 1 while page <= max_pages: url = 'https://www.example.com' source_code = requests.get(url) plain_text = source_code.text soup = BeautifulSoup(plain_text, "html.parser") for link in soup.findAll('a', {'class': 'c5'}): href = link.get('href') time.sleep(0.3) # print(href) single_item(href) page += 1 def single_item(item_url): s_code = requests.get(item_url) p_text = s_code.text soup = BeautifulSoup(p_text, "html.parser") upc = ('div', {'class': 'product-upc'}) for upc in soup.findAll('span', {'class': 'upcNum'}): print(upc.string) sku = ('span', {'data-selenium': 'bhSku'}) for sku in soup.findAll('span', {'class': 'fs16 c28'}): print(sku.text) price = ('span', {'class': 'price'}) for price in soup.findAll('meta', {'itemprop': 'price'}): print(price) outFile = open(r'C:\Users\abc.txt', 'a') outFile.write(str(upc)) outFile.write("\n") outFile.write(str(sku)) outFile.write("\n") outFile.write(str(price)) outFile.write('\n') outFile.close() spider(1)

1条回答

网友

1楼 · 发布于 2024-04-24 07:50:02

您需要的数据位于div属性data itemdata中，您可以调用json.loads，它将为您提供一个dict，您可以访问该dict来获取您想要的内容：

from bs4 import BeautifulSoup
import requests
import json

soup = BeautifulSoup(requests.get("https://www.bhphotovideo.com/c/buy/accessories/ipp/100/mnp/25/Ns/p_PRICE_2%7c0/ci/20861/pn/1/N/4005352853+35").content, "html.parser")


for d in soup.select("div[data-selenium=itemDetail]"):
    data = json.loads(d["data-itemdata"])
    print(data)

每个数据dict看起来像：

{u'catagoryId': u'20861',
 u'inCart': False,
 u'inWish': False,
 u'is': u'REG',
 u'itemCode': u'KBPTMCC2',
 u'li': [],
 u'price': u'26.45',
 u'searchTerm': u'',
 u'sku': u'890522'}

所以只要按键访问，即price = data["price"]。你知道吗

要获取UPC我们只需要访问items页面，我们可以使用data-selenium属性从h3获取url：

for d in soup.select("div[data-selenium=itemDetail]"):
    url = d.select_one("h3[data-selenium] a")["href"]
    upc = BeautifulSoup(requests.get(url).content, "html.parser").select_one("span.upcNum").text.strip()
    data = json.loads(d["data-itemdata"])

并非所有页面都有UPC值，因此，如果您只希望产品具有UPC的第一个检查项（如果select发现任何内容），则必须决定要执行的操作：

for d in soup.select("div[data-selenium=itemDetail]"):
    url = d.select_one("h3[data-selenium] a")["href"]

    upc = BeautifulSoup(requests.get(url).content, "html.parser").select_one("span.upcNum")
    if upc:
        data = json.loads(d["data-itemdata"])
        text = (upc.text.strip()

相关问题更多 >

编程相关推荐

热门问题

热门文章