Python BS4未检索结果

55)get_title() 54 ipdb.set_trace() ---> 55 title = soup.html.head.title.string 56 title = re.sub(r'[^\x00-\x7F]+',' ', title) ipdb> type(soup) <class 'bs4.BeautifulSoup'> ipdb> soup.title ipdb> print soup.title None ipdb> soup {"status":"OK","copyright":"Copyright (c) 2018 The New York Times Company. All Rights Reserved.","section":"home","last_updated":"2018-01-07T06:19:00-05:00","num_results":42,"results":[{"section":"Briefing","subsection":"",**"title":"Trump, Palestinians, Golden Globes: Your Weekend Briefing"**, ....

from __future__ import division import regex as re import string import urllib2 from bs4 import BeautifulSoup from cookielib import CookieJar import ipdb PARSER_TYPE = 'html.parser' def get_title(url): cj = CookieJar() opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj)) p = opener.open(url) soup = BeautifulSoup(p.read(), PARSER_TYPE) # This loads fine ipdb.set_trace() title = soup.html.head.title.string # This is sad title = re.sub(r'[^\x00-\x7F]+',' ', title) return title

1条回答

网友

1楼 · 发布于 2024-04-26 18:47:51

看看p.read()返回什么。你会发现它不是HTML，而是JSON字符串。不能使用HTML解析器成功解析JSON，但是可以使用JSON解析器，例如^{}包中提供的解析器。你知道吗

import json

p = opener.open(url)
response = json.loads(p.read())

接下来response将引用字典。然后可以使用字典访问方法来提取特定的数据段：

title = response['results'][0]['title']

请注意，response['results']本身就是一个list，因此您需要获取该列表的第一个元素（至少对于您展示的示例是这样）。response['results'][0]然后给出包含所需数据的第二个嵌套字典。用title键查找。你知道吗

由于结果包含在列表中，您可能需要遍历该列表来处理每个结果：

for result in response['results']:
    print(result['title'])

如果某些结果没有标题键，则可以使用dict.get()执行查找而不引发异常：

for result in response['results']:
    print(result.get('title'))

相关问题更多 >

编程相关推荐

热门问题

热门文章