西皮·特斯特·英德和兰克松

2024-06-16 02:20:50 发布

您现在位置:Python中文网/ 问答频道 /正文

我正试着做两个样本的t检验。我的数据集由744行和186列组成,我计算了它们的总和和平均值。我需要做两个样本t检验。我的csv如下所示,我必须从中计算每行的ttest和秩和测试,因为单独的行表示单独的ID并具有相应的值:

SRA ID  ERR169499            ERR169498           ERR169497
Label   1                    0                   1
TaxID   PRJEB3251_ERR169499  PRJEB3251_ERR169499 PRJEB3251_ERR169499
333046  0.05                 0.99                99.61
1049    0.03                 2.34                34.33
337090  0.01                 9.78                23.22
99007   22.33                2.90                0.00

标签0和1分别用于大小写和控件。我必须计算大小写列与ctrl列的测试时间。在

^{pr2}$

请帮我拿这个。在


Tags: csv数据idlabel平均值样本总和taxid
1条回答
网友
1楼 · 发布于 2024-06-16 02:20:50

我想这就是你要找的:

# assuming this data is coming from 'sum.csv'
'''
TaxID    sum_case   sum_ctrl  mean_case  mean_ctrl  n_case  n_ctrl
333046   4.76       4.56      xx.xx      xx.xx      xx      xx
1049     45.21      33.22     xx.xx      xx.xx      xx      xx
337090   35.98      16.71     xx.xx      xx.xx      xx      xx  
'''

import pandas as pd
from scipy.stats import ttest_ind

# read in data from 'sum.csv'
df = pd.read_csv('sum.csv')

df.head()

df

^{pr2}$

results

相关问题 更多 >