我试图做一些网页垃圾,我需要从网页中提取关键字。我正在尝试使用page_soup.findAll()来提取它,但我不知道在()之间插入什么来提取我需要的内容
页面代码如下所示:
var kv = {"seccion": "otros","nivel": "home","nota": "","id_nota": "","tipo": "noticias","keywords" : "IMPUESTOS, SII, EXCEDENTES ISAPRES, INCENDIOS, COLUSION CONFORT, COMPENSACION, PERMISOS DE CIRCULACION, REVISION TECNICA"};
我需要这些数据:
“过失、SII、例外、纵火、火灾、赔偿、流通许可、技术修订”
谢谢
这不是
HTML
,而是JavaScript
,因此findaAll()
对于这一点毫无用处您将其作为字符串,因此使用字符串函数来获取它-即切片
[start:end]
、split()
、replace()
,等等或者您可以从这个字符串
var kv =
和;
中删除JSON字符串,您可以使用模块json
将其转换为Python的字典,然后您可以从字典中获取它-dictionary["keywords"]
相关问题 更多 >
编程相关推荐