蛋白质序列编码

MTAQDDSYSDGKGDYNTIYLGAVFQLN,MTAQDDSYSDGRGDYNTIYLGAVFQLN,MTSQEDSYSDGKGNYNTIMPGAVFQLN,MTAQDDSYSDGRGDYNTIMPGAVFQLN,MKAQDDSYSDGRGNYNTIYLGAVFQLQ,MKSQEDSYSDGRGDYNTIYLGAVFQLN,MTAQDDSYSDGRGDYNTIYPGAVFQLN,MTAQEDSYSDGRGEYNTIYLGAVFQLQ,MTAQDDSYSDGKGDYNTIMLGAVFQLN,MTAQDDSYSDGRGEYNTIYLGAVFQLN

position+residue 2T 2K 3A 3S 5D 5E 5H sequence1 1 0 1 0 1 0 0 sequence2 1 0 1 0 1 0 0 sequence3 1 0 0 1 0 1 0 sequence4 1 0 1 0 1 0 0 sequence5 0 1 1 0 0 0 1 (RESIDUES ARE CODED 1 IF PRESENT, 0 IF ABSENT)

ls= 'MTAQDDSYSDGKGDYNTIYLGAVFQLN,MTAQDDSYSDGRGDYNTIYLGAVFQLN,MTSQEDSYSDGKGNYNTIMPGAVFQLN,MTAQDDSYSDGRGDYNTIMPGAVFQLN,MKAQDDSYSDGRGNYNTIYLGAVFQLQ,MKSQEDSYSDGRGDYNTIYLGAVFQLN,MTAQDDSYSDGRGDYNTIYPGAVFQLN,MTAQEDSYSDGRGEYNTIYLGAVFQLQ,MTAQDDSYSDGKGDYNTIMLGAVFQLN,MTAQDDSYSDGRGEYNTIYLGAVFQLN'.split(',') pos = [set(enumerate(x, 1)) for x in ls] a=set().union(*pos) alle = sorted(set().union(*pos)) print '\t'.join(str(x) + y for x, y in alle) for p in pos: print '\t'.join('1' if key in p else '0' for key in alle)

from pandas import * data = 'MTAQDDSYSDGKGDYNTIYLGAVFQLN,MTAQDDSYSDGRGDYNTIYLGAVFQLN,MTSQEDSYSDGKGNYNTIMPGAVFQLN,MTAQDDSYSDGRGDYNTIMPGAVFQLN,MKAQDDSYSDGRGNYNTIYLGAVFQLQ,MKSQEDSYSDGRGDYNTIYLGAVFQLN,MTAQDDSYSDGRGDYNTIYPGAVFQLN,MTAQEDSYSDGRGEYNTIYLGAVFQLQ,MTAQDDSYSDGKGDYNTIMLGAVFQLN,MTAQDDSYSDGRGEYNTIYLGAVFQLN' df = DataFrame([list(row) for row in data.split(',')]) df = DataFrame({str(col+1)+val:(df[col]==val).apply(int) for col in df.columns for val in set(df[col])}) print df.select(lambda x: not df[x].all(), axis = 1)

1条回答

网友

1楼 · 发布于 2024-06-11 04:10:33

函数get_dummies可以帮助您完成大部分任务：

In [11]: s
Out[11]: 
0    T
1    T
2    T
3    T
4    K
Name: 1

In [12]: pd.get_dummies(s, prefix=s.name, prefix_sep='')
Out[12]: 
   1K  1T
0   0   1
1   0   1
2   0   1
3   0   1
4   1   0

以及具有不同值的列：

^{pr2}$

把这些放在一起：

^{3}$

注意：我创建了如下初始数据帧，但这可能会根据您的情况更有效地完成：

df = pd.DataFrame(map(list, 'MTAQDD,MTAQDD,MTSQED,MTAQDD,MKAQHD'.split(',')))

相关问题更多 >

编程相关推荐

热门问题

热门文章