如何从html中提取数据

网友

1楼 · 编辑于 2024-04-18 22:31:44

我想，你应该使用'user-agent'。你可以试试：

from bs4 import BeautifulSoup
import requests

headers =  {'User-Agent': 'Mozilla/5.0 (Windows NT x.y; Win64; x64; rv:10.0) Gecko/20100101 Firefox/10.0 '}
url = "https://www.pixiv.net/en/users/14792128"
response = requests.get(url,headers=headers)
soup = BeautifulSoup(response.text, 'lxml')
print(soup.prettify())

网友

2楼 · 编辑于 2024-04-18 22:31:44

不知道你到底想要什么，也不知道你想要什么作为输出。但是您可以从ajax访问json响应：

import pandas as pd
import requests

url='https://www.pixiv.net/ajax/user/14792128/profile/all?lang=en'

jsonData = requests.get(url).json()
data = jsonData['body']['mangaSeries']

df = pd.DataFrame(data)

网友

3楼 · 编辑于 2024-04-18 22:31:44

如果没有有效的URL，很难提供有效的答案，但您的问题确实提供了一些线索

首先，您说您在GET的响应中收到了：

<body>

但是，您可以在web浏览器中看到：

<body data-loaded="true">

这表明页面运行JavaScript代码，在加载初始页面后继续加载和构建页面

没有办法用requests或bs4或类似的东西来回避这个问题。您可以检查初始页面加载之后有哪些请求包含实际内容（可能是另一段html、一些json等），并使用该请求获取内容。如果您想尝试这样做，请尝试在良好的浏览器中打开开发人员工具，并在加载页面时查看“网络”选项卡，您将看到所有请求，其中一个可能包含您要查找的内容

但是，如果在渲染后需要html，就像脚本渲染一样，可以尝试使用Python中支持JavaScript的浏览器，比如通过Selenium Chrome webdriver驱动的Chrome：

from selenium import webdriver

driver = webdriver.Chrome()
driver.get("https://your.url/here")
elem = driver.find_element_by_tag_name('body')
print(elem.text)

请注意，您需要安装Selenium，并需要获得相应驱动程序的副本，如chromedriver.exe。将其添加到您的虚拟环境：

安装seleniumpip install selenium
从此处安装适当的浏览器驱动程序，例如ChromeDriver:https://sites.google.com/a/chromium.org/chromedriver/home
（将可执行文件放到脚本文件夹中）

相关问题更多 >

编程相关推荐

热门问题

热门文章