使用BS4抓取和解析<script>标记（或者有更好的方法）

<script> var locations = [['Wolf Pack Brewing Company', 44.6620529, -111.0994608, '/breweries/Wolf_Pack_Brewing_Co'],['Defiant Brewing Company', 41.0584046, -74.022847, '/breweries/Defiant_Brewing_Co'],

url = "https://www.brewbound.com/breweries" r = requests.get(url) html_contents = r.text html_soup = BeautifulSoup(html_contents, 'html.parser') script = html_soup.find_all('script')

1条回答

网友

1楼 · 发布于 2024-05-15 16:52:11

BeautifulSoup对<script>标记的内容没有帮助。但是您可以使用re和ast.literal_eval来提取信息：

import re
import requests
from ast import literal_eval
from pprint import pprint

url = "https://www.brewbound.com/breweries"
r = requests.get(url)

l = literal_eval(re.search(r'var locations = (\[.*?\]);', r.text, flags=re.DOTALL)[1])
pprint(l)

印刷品：

[['Wolf Pack Brewing Company',
  44.6620529,
  -111.0994608,
  '/breweries/Wolf_Pack_Brewing_Co'],
 ['Defiant Brewing Company',
  41.0584046,
  -74.022847,
  '/breweries/Defiant_Brewing_Co'],
 ['El Toro Brewing Company',
  37.1465525,
  -121.6219873,
  '/breweries/El_Toro_Brewing_Co'],
 ['Sebago Brewing Company',
  43.679212,
  -70.396424,
  '/breweries/Sebago_Brewing_Co'],

...etc.

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用BS4抓取和解析<script>标记（或者有更好的方法）

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >