在Python中统计列中相同值的行数

Question

我想在Python中实现R语言的aggregate()函数，但不想把数据拼接在一起。对于每一行，我只想统计在某一列中具有相似值的行的出现次数。

我正在尝试从这里的一段代码入手：http://timotheepoisot.fr/2011/12/01/the-aggregate-function-in-python/

我做的修改用###标记出来了。现在我遇到的问题是，第一列[0]包含的是字符串，而代码似乎只适用于浮点数。

import numpy as np
import scipy as sp  

def MSD(vec):
    return [np.mean(vec),np.std(vec)]  
def aggregate(df,by=0,to=1,func=np.sum):
    Dat = []
#    ColBy = df.T[by]
    ColBy = int(df.T[by][3:]) ### my attempt to read only the numbers in the first column's character strings
    ColTo = df.T[to] 
    UniqueBy = np.sort(np.unique(ColBy))
    for ub in UniqueBy:
        uTo = ColTo[ColBy==ub]
        Out = func(uTo)
#        Dat.append(np.concatenate(([ub],Out)))
        Dat.append([ub],Out) ### because I do not want to concatenate
    return Dat  

test_df = np.loadtxt('in_test.txt')  
Agr = aggregate(test_df,0,3,MSD)
sp.savetxt("out_test.txt", Agr)

这是错误信息：

Traceback (most recent call last):
  File "count_same_reads.py", line 30, in <module>
    test_df = np.loadtxt('in_test.txt')
  File "/usr/lib/python2.7/dist-packages/numpy/lib/npyio.py", line 796, in loadtxt
    items = [conv(val) for (conv, val) in zip(converters, vals)]
ValueError: could not convert string to float: Tag19184

我的数据是用制表符分隔的，主要包含字符串，只有第三列是我想写入行出现次数的地方。

这是测试数据：

Tag19184    CTAAC   hffef   1   a   36  -   chr1    10006   0   36M 36
Tag19184    CTAAC   hffef   1   a   36  -   chr1    10012   0   36M 36
Tag19184    CTAAC   hffef   1   a   36  -   chr1    10018   0   36M 36
Tag19184    CTAAC   hffef   1   a   36  -   chr1    10024   0   36M 36
Tag19184    CTAAC   hffef   1   a   36  -   chr1    10030   0   36M 36
Tag19184    CTAAC   hffef   1   a   36  -   chr1    10036   0   36M 36
Tag19184    CTAAC   hffef   1   a   36  -   chr1    10042   0   36M 36
Tag20198    CTAAC   hffef   1   a   36  -   chr1    10048   0   36M 36
Tag20198    CTAAC   hffef   1   a   36  -   chr1    10054   0   36M 36
Tag45093    CTAAC   hffef   1   a   36  -   chr1    10060   0   36M 36

结果应该是这样的：

Tag19184    CTAAC   hffef   7   a   36  -   chr1    10006   0   36M 36
Tag19184    CTAAC   hffef   7   a   36  -   chr1    10012   0   36M 36
Tag19184    CTAAC   hffef   7   a   36  -   chr1    10018   0   36M 36
Tag19184    CTAAC   hffef   7   a   36  -   chr1    10024   0   36M 36
Tag19184    CTAAC   hffef   7   a   36  -   chr1    10030   0   36M 36
Tag19184    CTAAC   hffef   7   a   36  -   chr1    10036   0   36M 36
Tag19184    CTAAC   hffef   7   a   36  -   chr1    10042   0   36M 36
Tag20198    CTAAC   hffef   2   a   36  -   chr1    10048   0   36M 36
Tag20198    CTAAC   hffef   2   a   36  -   chr1    10054   0   36M 36
Tag45093    CTAAC   hffef   1   a   36  -   chr1    10060   0   36M 36

如你所见，我在Python方面还不太熟练。任何建议都非常欢迎。

[编辑] PS. 数据已经按列[0]排序了。

字符串处理数据处理数据分析数据排序统计函数制表符分隔行数统计相似值

在Python中统计列中相同值的行数

1 个回答

撰写回答