如何用python描述矩阵中所有两个因子列的组合（平均值、中值、计数等）？

2条回答

网友

1楼 · 编辑于 2024-04-25 16:41:53

这应该行得通（它在您的示例上有效，但我还没有在更大的数据集上测试过）：

(nrow, ncol) = df.shape
for i in range(0,nrow-1):
    for j in range(i+1, nrow-1):
        temp = df.iloc[:,[i,j]].reset_index()
        temp.dropna(inplace=True)
        print temp.columns[1:].tolist(), len(temp), temp.ix[:,1].mean(), temp.ix[:,1].median()

你的例子给出了

^{pr2}$

为每对列创建一个新的dataframe，并删除任何带有“NA”的内容，然后对该临时数据帧执行基本统计。也许有一种更有效的方法可以做到这一点，但是你的数据帧足够小，这不应该是个大问题。在

网友

2楼 · 编辑于 2024-04-25 16:41:53

我试着让它对你来说有一个合理的可伸缩性，因此使用列表而不是在pandas中完成。我在熊猫身上看到的唯一好方法是需要大量的行操作，而在大熊猫身上这种操作非常慢。在这里添加属性相当容易——只需在数组中添加一个名为outarr的列，并在创建输出数据帧时将其命名。在

import pandas as pd, numpy as np
import itertools
df = pd.DataFrame({'A' : [12,np.nan,np.nan,7],
                   'B' : [np.nan,11,8,7],
                   'C' : [12,11,np.nan,7]})

cols = df.columns.values #Columns from your dataframe
collist = list(itertools.combinations(cols,2)) #All combinations of columns from your df

#Create numpy array for each two-column combo and calculate count, mean, median
outarr = [0]*len(collist)
for ix, coltuple in enumerate(collist):
    a = df[list(coltuple)].dropna().values
    outarr[ix] = [a.shape[0],np.mean(a),np.median(a)]

#Create output dataframe
dfout = pd.DataFrame(outarr,index = collist,columns=['count','mean','median'])
dfout

Out[41]:
        count   mean    median
(A, B)  1       7.0     7.0
(A, C)  2       9.5     9.5
(B, C)  2       9.0     9.0

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何用python描述矩阵中所有两个因子列的组合（平均值、中值、计数等）？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >