我有档案。看起来像这样
# AA : amino acid sequence #
# OBS_sec : observed secondary structure: H=helix, E=extended #
# (sheet), blank=other (loop) #
# PROF_sec : PROF predicted secondary structure: H=helix, E=extended #
# (sheet), blank=other (loop) #
PHD htm | HHHHHHHHHHHHHHHHHHHHHH HHHHHHHHHHHHHH|
PROF_sec |EEEEE HHHHHHHHHHH EEEEEE HHHHHHHHHH EEEEEEEEE |
我想知道以“PROF|u sec”开始的那一行,然后返回H和E的位置,在|..|。你知道吗
我这样写代码
rexp = re.compile('(?#...)^[PROF_sec][H]+[E]+')
List = [(n.start(0), n.end(0)) for n in rexp.finditer(file)]
但它返回空值。你知道吗
如何修改代码?你知道吗
另外,文件中的所有内容只在一行中考虑。例如,最后一个“eeeeeee”将给出输出(493502)
您可以使用str.startswith开始要得到您想要的行,请将每个行的总长度保持到该点,然后使用正则表达式得到H和E子字符串:
这将给你:
相关问题 更多 >
编程相关推荐