如何使用不同大小的列表创建python字典？

import re line=">sp|A|PE=3 SV=1 IDMANTTI >sp|B|PE=3 SV=1 EVPFYPKA >sp|C| PE=3 SV=2 QRWLFNYSGNISN" NGly_Sites=[] protein_list=[] p_and_a=re.findall(r'sp\|(\w+)\|.+?SV=\d\s([A-Z]+)', line) for protein, amino in p_and_a: print(protein, amino) protein_list.append(protein) NGly_Sites=re.findall(r'N[^P][ST][^P]', amino) print(NGly_Sites) Sites={k:v for k,v in zip(protein_list, NGly_Sites)} print(Sites)

2条回答

网友

1楼 · 编辑于 2024-06-16 13:30:57

import re

line=">sp|A|PE=3 SV=1 IDMANTTI >sp|B|PE=3 SV=1 EVPFYPKA >sp|C| PE=3 SV=2 QRWLFNYSGNISN"

p_and_a=re.findall(r'sp\|(\w+)\|.+?SV=\d\s([A-Z]+)', line) 

sites =  { protein : re.findall(r'N[^P][ST][^P]', amino)  for protein, amino in p_and_a }

print(sites)

# {'A': ['NTTI'], 'B': [], 'C': ['NYSG', 'NISN']}

网友

2楼 · 编辑于 2024-06-16 13:30:57

您可以使用列表理解来构建元组对的完整蛋白质列表，然后使用dict理解来过滤空列表值。这可以在一个单独的dict理解中完成，但是把它分成两个步骤要清楚一点，这样就省去了额外调用findall提取蛋白质序列的麻烦。你知道吗

import re

line = ">sp|A|PE=3 SV=1 IDMANTTI >sp|B|PE=3 SV=1 EVPFYPKA >sp|C| PE=3 SV=2 QRWLFNYSGNISN"
protein_pattern = r"sp\|(\w+)\|.+?SV=\d\s([A-Z]+)"
sites_pattern = r"N[^P][ST][^P]"

all_proteins = [
    (k, re.findall(sites_pattern, v)) 
    for k, v in re.findall(protein_pattern, line)
]
sites = {k: v for k, v in all_proteins if v}

print(sites) # => {'A': ['NTTI'], 'C': ['NYSG', 'NISN']}

相关问题更多 >

编程相关推荐

热门问题

热门文章