是否有一种方法可以解析父网页中多个页面的数据？

url ='https://ndclist.com/?s=Trospium' soup = BeautifulSoup(requests.get(url).content, 'html.parser') all_data = [] for a in soup.select('[data-title="NDC"] a[href]'): link_url = a['href'] print('Processin link {}...'.format(link_url)) soup2 = BeautifulSoup(requests.get(link_url).content, 'html.parser') for b in soup2.select('#product-packages a'): link_url2 = b['href'] print('Processing link {}... '.format(link_url2)) soup3 = BeautifulSoup(requests.get(link_url2).content, 'html.parser') for link in soup3.findAll('tr', limit=7)[1]: print(link.name) all_data.append(link.name) print('Trospium') print(all_data)

1条回答

网友

1楼 · 发布于 2024-05-21 01:40:55

是的，在这种情况下，BeautifulSoup是理想的选择。此脚本将打印页面中的所有10位代码：

import requests
from bs4 import BeautifulSoup

url = 'https://ndclist.com/?s=Solifenacin'

soup = BeautifulSoup(requests.get(url).content, 'html.parser')

all_data = []
for a in soup.select('[data-title="NDC"] a[href]'):
    link_url = a['href']
    print('Processin link {}...'.format(link_url))

    soup2 = BeautifulSoup(requests.get(link_url).content, 'html.parser')
    for link in soup2.select('#product-packages a'):
        print(link.text)
        all_data.append(link.text)

# In all_data you have all codes, uncoment to print them:
# print(all_data)

印刷品：

Processin link https://ndclist.com/ndc/0093-5263...
0093-5263-56
0093-5263-98
Processin link https://ndclist.com/ndc/0093-5264...
0093-5264-56
0093-5264-98
Processin link https://ndclist.com/ndc/0591-3796...
0591-3796-19
Processin link https://ndclist.com/ndc/27241-037...
27241-037-03
27241-037-09

... and so on.

编辑：（我也得到描述的版本）：

import requests
from bs4 import BeautifulSoup

url = 'https://ndclist.com/?s=Solifenacin'

soup = BeautifulSoup(requests.get(url).content, 'html.parser')

all_data = []
for a in soup.select('[data-title="NDC"] a[href]'):
    link_url = a['href']
    print('Processin link {}...'.format(link_url))

    soup2 = BeautifulSoup(requests.get(link_url).content, 'html.parser')
    for code, desc in zip(soup2.select('a > h4'), soup2.select('a + p.gi-1x')):
        code = code.get_text(strip=True).split(maxsplit=1)[-1]
        desc = desc.get_text(strip=True).split(maxsplit=2)[-1]
        print(code, desc)
        all_data.append((code, desc))

# in all_data you have all codes:
# print(all_data)

印刷品：

Processin link https://ndclist.com/ndc/0093-5263...
0093-5263-56 30 TABLET, FILM COATED in 1 BOTTLE
0093-5263-98 90 TABLET, FILM COATED in 1 BOTTLE
Processin link https://ndclist.com/ndc/0093-5264...
0093-5264-56 30 TABLET, FILM COATED in 1 BOTTLE
0093-5264-98 90 TABLET, FILM COATED in 1 BOTTLE
Processin link https://ndclist.com/ndc/0591-3796...
0591-3796-19 90 TABLET, FILM COATED in 1 BOTTLE

...and so on.

相关问题更多 >

编程相关推荐

热门问题

热门文章