XPATH未从HTML Python提取表

2024-04-26 00:35:42 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试使用Python中的xpath模块从HTML文档中提取表。如果我打印下载的HTML,我会看到完整的DOM。但是,当我使用xpath.get文件,它给了我一个身体的部分,但不是我想要的,当然不是唯一一个应该在那里。这是剧本。你知道吗

import requests
from webscraping import download, xpath
D = download.Download()
url = 'http://labs.mementoweb.org/timemap/json/http://www.awebsiteimscraping.com'
r = requests.get(url)
data = []
mementos = r.json()['mementos']['list']
for memento in mementos:
    data.append(D.get(memento['uri']))
# print xpath.get(data[10], '//table')
print type(data[0])
# print data[10]
print len(data)

我是新来的,所以idk如果有关系的话,但是'data'中每个元素的类型都是str


Tags: 模块文档importjsonhttpurldataget
1条回答
网友
1楼 · 发布于 2024-04-26 00:35:42

使用json.loads文件()

试试这个

import requests
import json
from webscraping import download, xpath
D = download.Download()
url = 'http://labs.mementoweb.org/timemap/json/http://www.awebsiteimscraping.com'
r = requests.get(url)
data = []
mementos = r.json()['mementos']['list']
for memento in mementos:
    data.append(D.get(memento['uri']))
# print xpath.get(data[10], '//table')
print type(data[0])
# print data[10]
print len(data)
json_data = json.loads(data)
print type(json_data[0])

相关问题 更多 >

    热门问题