用python计算案例数

def combination(listData): comListData = []; for datum in listData : start = listData.index(datum) + 1 while start < len(listData) : if datum!=listData[start] : comStr = datum+':'+listData[start] if not comStr in comListData : comListData.append(comStr) start+=1; return comListData def insertToDic(dic,comSick): for datum in comSick : if dic.has_key(datum) : dic[datum]+=1 else : dic[datum] = 1 try: con = mdb.connect('blahblah','blah','blah','blah') cur = con.cursor() sql ="select * from table" cur.execute(sql); data = cur.fetchall(); start = 0 end = 1 sick = [] dic = {} for datum in data : end = datum[0] if end!=start: start = end comSick = combination(sick) insertToDic(dic,comSick) sick = [] sick.append(datum[2]) start = end comSick = combination(sick) insertToDic(dic,comSick) for k,v in dic.items(): a,b = k.split(':') print >>f, a.ljust(0), b.ljust(0), v f.close()

0条回答

网友

1楼 · 发布于 2024-05-23 14:24:28

让我试着重新表述一下你的问题。对于每个ID（不包括日期以使问题更简单），您需要Disease列中所有可能的值对，以及它们出现的频率，以及它们的顺序。现在，在Python中有一个内置函数可以实现这一点：

from itertools import permutations
all_pairs = permutations(diseases, 2)

鉴于你的数据，我猜它是在csv文件。如果不是，请自己调整我的代码（这是一种琐碎的谷歌搜索）。我们将使用数据科学堆栈中著名的库Pandas。事情是这样的：

from itertools import permutations
import pandas as pd

df = pd.read_csv('data.csv', header=0)
pairs_by_did = df.groupby('ID').apply(lambda grp: pd.Series(list(permutations(grp['Disease'], 2))))
all_pairs = pd.concat([v for i, v in pairs_by_did.iterrows()])
pair_counts = all_pairs.value_counts()
print pair_counts

例如，它打印

>>> print pair_counts
(A, B)    2
(D, A)    2
(A, D)    2
(C, A)    2
(B, A)    2
(A, C)    2
(A, A)    2
(C, B)    1
(D, C)    1
(C, D)    1
(D, B)    1
(B, D)    1
(B, C)    1
Name: 1, dtype: int64

现在同时按ID和date分组，看看你得到了什么。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章