我有100行10列的数据(实际数据非常大)。我还有一个row_索引列表,它包含哪些行被认为是平均值。我想计算第2、5、6、7和8列的平均值。我们可以用dataframe对象的函数来实现吗
我知道的是做一个for循环,为row_索引中的每个元素获取行的值,然后继续执行mean。我们是否有一些直接函数,可以为exdf.meanAdvance(row_list,column_list,axis=0)
传递行列表、列列表和轴
我已经看过DataFrame.mean(),但我想这没什么帮助
a b c d q
0 1 2 3 0 5
1 1 2 3 4 5
2 1 1 1 6 1
3 1 0 0 0 0
我想要每个a, b, d
列的0, 2, 3
行的平均值
a b d
0 1 1 2
要选择数据帧的行,可以使用iloc,然后可以使用方括号选择所需的列
例如:
提供以下数据帧:
要仅选择三维和第五行,可以执行以下操作:
返回:
如果您想仅选择列b和c,则使用以下命令:
这将产生:
然后,要获得数据帧子集的平均值,可以使用df.mean函数。如果需要列的平均值,可以指定axis=0;如果需要行的平均值,可以指定axis=1
因此:
返回:
正如我们从输入数据帧中所期望的那样
对于您的代码,您可以执行以下操作:
评论后编辑: 评论中的新问题: 我必须将这些方法存储在另一个df/矩阵中。我有L1,L2,L3,L4…LX列表,它告诉我C[1,2,3]列需要的索引的平均值。对于ex:L1=[0,2,3],意味着我需要行0,2,3的平均值,并将其存储在新df/矩阵的第一行中。然后L2=[1,4],我将再次计算平均值,并将其存储在新df/矩阵的第二行。类似地,直到LX,我希望新的df有X行和len(C)列。L1..LX的列将保持不变。你能帮我做这个吗
答复:
如果我理解正确的话,下面的代码应该可以做到这一点(与上面的df相同,作为我使用的'a'和'b'列):
首先在所有行列表上循环,将所有平均值收集为pd.series,然后在axis=1上连接生成的系列列表,然后进行转置以获得正确的格式
您可以通过将索引列表传递给
.iloc
,从数据帧中选择特定列,例如:将返回包含这些编号列的数据帧(注意:这使用基于0的索引,因此
2
表示第三列。)要计算该列的平均值,可以使用:
要对该列取平均值,您可以使用:
还可以为两个轴提供特定索引,以返回表的子集:
对于您的具体示例,您将执行以下操作:
哪些产出:
或者,要通过列名访问,请首先选择以下选项:
要回答问题的第二部分(来自评论),可以使用
pd.concat
将多个数据帧连接在一起。在列表中累积帧,然后一次性传递到pd.concat
会更快,例如相关问题 更多 >
编程相关推荐