“查看完整列表”按钮最多可显示10项

import bs4 as bs import urllib.request raw = urllib.request.urlopen('http://fortune.com/worlds-most-admired-companies/2016/') soup = bs.BeautifulSoup(raw, 'lxml') listdiv = soup.find('div', clsss_="company-franchise-result-content current") for url in listdiv.find_all('a'): print(url.get('href'))

1条回答

网友

1楼 · 发布于 2024-04-25 02:13:03

完整的数据实际上在HTML中。它就在script标记中的JavaScript对象内部。您可以找到这个script标记，获取它的文本，提取JSON字符串，用^{}将其加载到Python数据结构中，并获取所需的数据：

In [1]: from bs4 import BeautifulSoup

In [2]: import json

In [3]: import re

In [4]: url = "http://fortune.com/worlds-most-admired-companies/2016/"

In [5]: response = requests.get(url)

In [6]: soup = BeautifulSoup(response.content, "lxml")   

In [7]: pattern = re.compile(r"var fortune_wp_vars = ({.*?});", re.DOTALL | re.MULTILINE)

In [8]: script = soup.find("script", text=pattern)   

In [9]: data = json.loads(pattern.search(script.get_text()).group(1))  

In [10]: companies = data["bootstrap"]["franchise"]["filtered_sorted_data"]

In [11]: for company in companies:
    ...:     print(company["title"])
    ...:     
Apple
Alphabet
...
Yum Brands
ZF Friedrichshafen
Zurich Insurance Group

相关问题更多 >

编程相关推荐

热门问题

热门文章

“查看完整列表”按钮最多可显示10项

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >