返回具体单词的位置

# AA : amino acid sequence # # OBS_sec : observed secondary structure: H=helix, E=extended # # (sheet), blank=other (loop) # # PROF_sec : PROF predicted secondary structure: H=helix, E=extended # # (sheet), blank=other (loop) # PHD htm | HHHHHHHHHHHHHHHHHHHHHH HHHHHHHHHHHHHH| PROF_sec |EEEEE HHHHHHHHHHH EEEEEE HHHHHHHHHH EEEEEEEEE |

1条回答

网友

1楼 · 发布于 2024-05-19 23:03:18

您可以使用str.startswith开始要得到您想要的行，请将每个行的总长度保持到该点，然后使用正则表达式得到H和E子字符串：

import re

h, e = re.compile("H+"), re.compile("E+")

with open("in.txt") as f:
    for line in f:
        if line.startswith("PROF_sec"):
            print([(s.start() +sm, s.end()+ sm) for s in h.finditer(line)])
            print([(s.start()+sm, s.end()+sm) for s in e.finditer(line)])
            break
        sm += len(line)

这将给你：

[(446, 451), (470, 476), (493, 502)]
[(456, 467), (479, 489)]

编程相关推荐

java获取JEditorPane中字符的绝对位置
java Datetime：将时间段拆分为天、小时和分钟
java是使此HashMap更高效的一种方法
java项目reactor:collectList（）之后的block（）对Flux不起作用。创建（）
java在Mac OSX上安装OpenCV
java递归地确定一组数字是否包含两个总和相等的子集
Quad2D曲线上的几何图形Java绘图箭头
java将SSL证书导入Glassfish 4。十、
java Android未找到处理Intent MediaScanner的活动
EclipseJava。安全cert.CertificateParsingException:java。木卫一。IOException:主题密钥，无法创建EC公钥

相关问题更多 >

编程相关推荐

热门问题

热门文章

返回具体单词的位置

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >