Python BS4未检索结果

2024-04-26 18:47:51 发布

您现在位置:Python中文网/ 问答频道 /正文

使用下面的代码,我可以毫无问题地获取“soup”。我的目标是最终在soup对象中获取标题,但我很难弄清楚如何实现它。除了下面的内容,我还尝试了soup['results']的各种迭代,1.结果, soup.get\u文本()结果。。等等,不知道怎么去。我当然可以soup.get\u文本() ... (字符串“title”的某种搜索函数,但感觉必须有一个内置的方法。你知道吗

55)get_title()
     54     ipdb.set_trace()
---> 55     title = soup.html.head.title.string
     56     title = re.sub(r'[^\x00-\x7F]+',' ', title)

ipdb> type(soup)
<class 'bs4.BeautifulSoup'>
ipdb> soup.title
ipdb> print soup.title
None
ipdb> soup
{"status":"OK","copyright":"Copyright (c) 2018 The New York Times Company. All Rights Reserved.","section":"home","last_updated":"2018-01-07T06:19:00-05:00","num_results":42,"results":[{"section":"Briefing","subsection":"",**"title":"Trump, Palestinians, Golden Globes: Your Weekend Briefing"**, ....

代码

from __future__ import division

import regex as re
import string
import urllib2

from bs4 import BeautifulSoup
from cookielib import CookieJar
import ipdb

PARSER_TYPE = 'html.parser'

def get_title(url):
    cj = CookieJar()
    opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
    p = opener.open(url)
    soup = BeautifulSoup(p.read(), PARSER_TYPE) # This loads fine
    ipdb.set_trace()
    title = soup.html.head.title.string # This is sad
    title = re.sub(r'[^\x00-\x7F]+',' ', title)
    return title

Tags: 代码from文本importregetstringtitle
1条回答
网友
1楼 · 发布于 2024-04-26 18:47:51

看看p.read()返回什么。你会发现它不是HTML,而是JSON字符串。不能使用HTML解析器成功解析JSON,但是可以使用JSON解析器,例如^{}包中提供的解析器。你知道吗

import json

p = opener.open(url)
response = json.loads(p.read())

接下来response将引用字典。然后可以使用字典访问方法来提取特定的数据段:

title = response['results'][0]['title']

请注意,response['results']本身就是一个list,因此您需要获取该列表的第一个元素(至少对于您展示的示例是这样)。response['results'][0]然后给出包含所需数据的第二个嵌套字典。用title键查找。你知道吗

由于结果包含在列表中,您可能需要遍历该列表来处理每个结果:

for result in response['results']:
    print(result['title'])

如果某些结果没有标题键,则可以使用dict.get()执行查找而不引发异常:

for result in response['results']:
    print(result.get('title'))

相关问题 更多 >