从pandas.HDFStore选项卡中选择列

3条回答

网友

1楼 · 编辑于 2024-06-16 17:50:06

HDFStore记录表的方式是，按类型将列存储为单个numpy数组。你总是会得到所有的列，你可以过滤它们，所以你会得到你要求的回报。在0.10.0中，可以传递包含列的术语。

store.select('df', [ Term('index', '>', Timestamp('20010105')), 
                     Term('columns', '=', ['A','B']) ])

或者你可以事后重新编制索引

df = store.select('df', [ Term('index', '>', Timestamp('20010105') ])
df.reindex(columns = ['A','B'])

这里的axes并不是真正的解决方案（实际上您创建的是存储转置帧）。此参数允许您重新排列轴的存储顺序，以便以不同的方式启用数据对齐。对于数据帧来说，这并不意味着什么；对于3d或4d结构，磁盘上的数据对齐对于真正快速的查询是至关重要的。

0.10.1将允许一个更优雅的解决方案，即数据列，也就是说，您可以选择某些列来表示为表存储中有自己的列，这样您就可以只选择它们。这是一个什么来品尝。

 store.append('df', columns = ['A','B','C'])
 store.select('df', [ 'A > 0', Term('index', '>', Timestamp(2000105)) ])

另一种方法是将单独的表存储在文件的不同节点中，然后只能选择所需的内容。

总的来说，我再次推荐非常宽的桌子。hayden提供了Panel解决方案，这对您现在可能是一个好处，因为实际的数据排列应该反映您希望如何查询数据。

网友

2楼 · 编辑于 2024-06-16 17:50:06

从现在起，您可以使用查询表达式代替Term构造。 e、 g:store.select('df', "index > Timestamp('20000105')")

网友

3楼 · 编辑于 2024-06-16 17:50:06

您可以使用列的索引存储dataframe，如下所示：

import pandas as pd
import numpy as np
from pandas.io.pytables import Term

index = pd.date_range('1/1/2000', periods=8)
df = pd.DataFrame( np.random.randn(8,3), index=index, columns=list('ABC'))  

store = pd.HDFStore('mydata.h5')
store.append('df_cols', df, axes='columns')

然后根据您的希望选择：

In [8]: store.select('df_cols', [Term('columns', '=', 'A')])
Out[8]: 
2000-01-01    0.347644
2000-01-02    0.477167
2000-01-03    1.419741
2000-01-04    0.641400
2000-01-05   -1.313405
2000-01-06   -0.137357
2000-01-07   -1.208429
2000-01-08   -0.539854

其中：

In [9]: df
Out[9]: 
                   A         B         C
2000-01-01  0.347644  0.895084 -1.457772
2000-01-02  0.477167  0.464013 -1.974695
2000-01-03  1.419741  0.470735 -0.309796
2000-01-04  0.641400  0.838864 -0.112582
2000-01-05 -1.313405 -0.678250 -0.306318
2000-01-06 -0.137357 -0.723145  0.982987
2000-01-07 -1.208429 -0.672240  1.331291
2000-01-08 -0.539854 -0.184864 -1.056217

是的。

对我来说，这不是一个理想的解决方案，因为我们只能通过一件事来索引数据帧！令人担忧的是，the docs似乎建议您可以只通过一件事索引一个数据帧，至少使用axes：

Pass the axes keyword with a list of dimension (currently must by exactly 1 less than the total dimensions of the object).

我可能读错了，希望有人能证明我错了！

是的。

注意：我发现用两种方法（索引和列）索引数据帧的一种方法是将其转换为一个面板，然后面板可以使用两个索引进行检索。但是，每次检索项目时，我们都必须将选定的子面板转换为数据帧。。。再说一次，不太理想。

相关问题更多 >

编程相关推荐

热门问题

热门文章