pandas datafram中的计算列

data_series = {} while not q.empty(): (name, data_dict) = q.get() data_series[name] = pd.Series(data_dict)` data_frame = pd.DataFrame(data_series) #data_dict is of the format { MD5: [time_as_float1, time_as_float2] } #I have multiple data_dicts stored in a queue (created by multiple worker threads)

1条回答

网友

1楼 · 发布于 2024-06-01 02:46:46

你说得对，你构建数据帧的方式并不好。尽量利用大熊猫与小猫咪的强烈互动。在

我首先创建数据帧（对于所有索引，您应该知道为了获得更好的性能，您需要预先知道有多少行），然后按行填充。我不能改进这一部分，因为我没有python3和queue。在

# first initialize dataframe
data_frame = pd.DataFrame(columns=['type', 'hash', 't0', 't1'], index=np.arange(10))

# this is now what would have to be inside the queue loop
data_dict = {'type': name, 'hash':md5hash,
             't0': times[0], 't1': times[1]}
name = "hlog"

data_series = pd.Series(data_dict)

data_frame.loc[0] = data_series
data_series[['t0', 't1']] += 0.5 # now I just quickly "fake" an additional loop to create more data
data_frame.loc[1] = data_series

现在我的数据集是这样的：

^{pr2}$

现在，有了t0和t1的单独列，您的第一个问题变得非常简单：

data_frame['time-it-took'] = data_frame['t1'] - data_frame['t0']

第二个问题在这里也经常得到回答：这是一个典型的groupby-apply组合，您可以在文档中找到很多信息： #设为索引：类型数据_frame.set_索引（['type'，inplace=True） #按类型：分组，并设置最小值to data_frame['first-time']=数据_框架.groupby（级别=0）。应用（lambda x:x['t0'].min（））

现在我的数据是这样的（索引仍然设置为散列类型）：

     hash   t0   t1 time-it-took  first-time
type                                        
hlog  MD5  0.1  0.2          0.1         0.1
hlog  MD5  0.6  0.7          0.1         0.1
NaN   NaN  NaN  NaN          NaN         NaN

一旦你理解了这里发生了什么，我相信你可以用这个来找到最大值't1'。在

同样，他们的关键是正确设置数据帧，这是你应该花更多时间做的事情。试着思考一下你的数据结构最合理的方式。在

相关问题更多 >

编程相关推荐

热门问题

热门文章