从网站上刮下一张桌子，作为Pandas储存

import urllib url = 'https://svc.qri.jp/jpx/english/nkopm/' opener = urllib.request.build_opener() opener.addheaders = [('User-agent', 'Mozilla/5.0')] response = opener.open(url) tables = pd.read_html(response.read(), attrs={"class":"price-table"})[0] ...HTTPError: HTTP Error 400: Bad Request

2条回答

网友

1楼 · 编辑于 2024-04-20 13:47:14

根据Ahmad's的回答，您几乎做到了：

您只需获得以下表格：

import requests
import pandas as pd

headers = {
    'Connection': 'keep-alive',
    'Cache-Control': 'max-age=0',
    'Upgrade-Insecure-Requests': '1',
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'Sec-Fetch-Site': 'cross-site',
    'Sec-Fetch-Mode': 'navigate',
    'Sec-Fetch-User': '?1',
    'Sec-Fetch-Dest': 'document',
    'Referer': 'https://www.jpx.co.jp/english/markets/index.html',
    'Accept-Language': 'de-DE,de;q=0.9,en-US;q=0.8,en;q=0.7,it;q=0.6,la;q=0.5',
}

response = requests.get('https://svc.qri.jp/jpx/english/nkopm/', headers=headers)
table = pd.read_html(response.text, attrs={"class": "price-table"})[0]
print(table)

这将产生：

                                                  CALL  ...                                                PUT
                                       Settlement09/18  ...                                    Settlement09/18
0                                                    2  ...                                               3030
1    Delta  Gamma  Theta  Vega  0.0032  0.0000  -0....  ...              Delta  Gamma  Theta  Vega  -  -  -  -
2                                                Delta  ...                                                NaN
3                                               0.0032  ...                                                NaN
4                                                Delta  ...                                                NaN
..                                                 ...  ...                                                ...

网友

2楼 · 编辑于 2024-04-20 13:47:14

阅读pandas函数的文档read_html它说

Read HTML tables into a list of DataFrame objects.

因此，函数需要以html表的形式进行结构化输入。我实际上无法访问您链接的网站，但我猜它会返回整个网站

您需要以结构化格式提取数据，以便pandas能够理解它。你需要刮它。这方面有很多工具，其中一个很流行的工具是^{}

Tl；dr：所以你需要做的是下载带有requests的网站，将其传递到BeautifulSoup，然后使用BeautifulSoup以结构化格式提取数据

最新答复：

似乎请求返回400的原因是因为网站需要一些额外的标题-我刚刚将浏览器的请求转储到请求中，它工作了

import requests

headers = {
    'Connection': 'keep-alive',
    'Cache-Control': 'max-age=0',
    'Upgrade-Insecure-Requests': '1',
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'Sec-Fetch-Site': 'cross-site',
    'Sec-Fetch-Mode': 'navigate',
    'Sec-Fetch-User': '?1',
    'Sec-Fetch-Dest': 'document',
    'Referer': 'https://www.jpx.co.jp/english/markets/index.html',
    'Accept-Language': 'de-DE,de;q=0.9,en-US;q=0.8,en;q=0.7,it;q=0.6,la;q=0.5',
}

response = requests.get('https://svc.qri.jp/jpx/english/nkopm/', headers=headers, cookies=cookies)

相关问题更多 >

编程相关推荐

热门问题

热门文章