我正在尝试从互联网上的一个表中获取信息,如下所示。我在python2.7中使用jupyter笔记本。我想使用Python的panda modüle中的这些信息作为数据帧。但是当ı复制带有表标题的表,然后使用read_clipboard命令时,我看到的错误如下表链接所示。但是没有表格标题就没有问题。如何用表格标题从网上获取数据。在
import numpy as np
import pandas as pd
from pandas import Series, DataFrame
from numpy.random import randn
df1 = pd.read_clipboard()
df1
^{pr2}$
考虑使用一个类似python的lxml模块,
html()
方法来刮取html表数据,然后迁移到pandas数据帧。虽然有一些自动化特性,比如pandas.read_html(),但是这种方法提供了对html内容中细微差别的更多控制,比如feb4列span。下面在表中的<td>
位置使用了一个xpath表达式,使用方括号[]
:您可以在页面上使用csv,其中包含
read_csv
可以轻松解析的所有数据:如果您想要特定的时间段,您只需更改url中的参数,即
^{pr2}$s=AAPL&d=1&e=16&f=2016&g=d&a=11&b=12&c=1980
,如果我们将1980年改为2015年:我们得到:
相关问题 更多 >
编程相关推荐