我需要从网页中提取特定的数据,但不知道怎么做

2024-05-14 17:56:59 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图做一些网页垃圾,我需要从网页中提取关键字。我正在尝试使用page_soup.findAll()来提取它,但我不知道在()之间插入什么来提取我需要的内容

页面代码如下所示:

var kv = {"seccion": "otros","nivel": "home","nota": "","id_nota": "","tipo": "noticias","keywords" : "IMPUESTOS,  SII,  EXCEDENTES ISAPRES,  INCENDIOS,  COLUSION CONFORT,  COMPENSACION,  PERMISOS DE CIRCULACION,  REVISION TECNICA"};

我需要这些数据:

“过失、SII、例外、纵火、火灾、赔偿、流通许可、技术修订”

谢谢


Tags: 代码网页内容varpage关键字页面垃圾
1条回答
网友
1楼 · 发布于 2024-05-14 17:56:59

这不是HTML,而是JavaScript,因此findaAll()对于这一点毫无用处

您将其作为字符串,因此使用字符串函数来获取它-即切片[start:end]split()replace(),等等

或者您可以从这个字符串var kv =;中删除JSON字符串,您可以使用模块json将其转换为Python的字典,然后您可以从字典中获取它-dictionary["keywords"]

text = 'var kv = {"seccion": "otros","nivel": "home","nota": "","id_nota": "","tipo": "noticias","keywords" : "IMPUESTOS,  SII,  EXCEDENTES ISAPRES,  INCENDIOS,  COLUSION CONFORT,  COMPENSACION,  PERMISOS DE CIRCULACION,  REVISION TECNICA"};'

text = text[9:-1]  # remove `var kv = ` and `;`

import json

d = json.loads(text)

print(d['keywords'])

相关问题 更多 >

    热门问题