检索Pandas中的数据

fname = 'ZZ4lAnalysis_VBFH.root' key = 'ZZTree/candTree' ttree = uproot.open(fname)[key] branches = ['Z1Flav', 'Z2Flav', 'nCleanedJetsPt30', 'LepPt', 'LepLepId'] df = ttree.pandas.df(branches, flatten=False)

2条回答

网友

1楼 · 编辑于 2024-05-12 22:31:10

您可以为此使用^{}接口uproot的一个依赖项，它允许您使用大小不规则的数组

为此，您需要稍微更改加载数据的方式，但它允许您使用与普通numpy数组相同的方法，即^{}：

fname = 'ZZ4lAnalysis_VBFH.root' 
key = 'ZZTree/candTree'
ttree = uproot.open(fname)[key]
# branches = ['Z1Flav', 'Z2Flav', 'nCleanedJetsPt30', 'LepPt', 'LepLepId']
branches = ['LepPt', 'LepLepId']   # to save memory, only load what you need

# df = ttree.pandas.df(branches, flatten=False)
a = ttree.arrays(branches)    # use awkward array interface

max_pt_idx = a[b'LepPt'].argmax()
max_pt_lepton_id = a[b'LepLepld'][max_pt_idx].flatten()

然后，这只是一个普通的numpy数组，如果需要，可以将其分配给pandas数据帧的一列。它应该具有正确的维度和顺序。它还应该比使用内置Python函数更快

请注意，键是bytestring，而不是普通字符串，如果存在没有轻子的事件，则必须执行一些额外的步骤（在这种情况下，flatten将忽略这些空事件，从而破坏对齐）

或者，也可以在以后转换列：

import awkward

df = ttree.pandas.df(branches, flatten=False)

max_pt_idx = awkward.fromiter(df["LepPt"]).argmax()
lepton_id = awkward.fromiter(df["LepLepld"])
df["max_pt_lepton_id"] = lepton_id[max_pt_idx].flatten()

如果以后不再需要列，则前者会更快，否则后者可能更好

网友

2楼 · 编辑于 2024-05-12 22:31:10

我做了一些模拟数据，因为你没有提供任何简单的格式。我想这就是你要找的

import pandas as pd

df = pd.DataFrame.from_records(
    [   [[1,2,3], [4,5,6]],
        [[4,6,5], [7,8,9]]
    ],
    columns=['LepPt', 'LepLepld']
)

df['max_LepPt'] = [max(i) for i in df.LepPt]

def f(row):
    # get index position within list
    pos = row['LepPt'].index(row['max_LepPt']).tolist()
    return row['LepLepld'][pos]

df['same_index_LepLepld'] = df.apply(lambda x: f(x), axis=1)

    LepPt       LepLepld    max_LepPt   same_index_LepLepld
0   [1, 2, 3]   [4, 5, 6]   3           6
1   [4, 6, 5]   [7, 8, 9]   6           8

相关问题更多 >

编程相关推荐

热门问题

热门文章