从这个链接http://www.gene-regulation.com/cgi-bin/pub/programs/pmatch/bin/p-match.cgi产生了我需要处理的结果,以便只获得序列ID、开始和结束位置。从结果中提取坐标信息的方法有哪些?下面是示例结果
Scanning sequence ID: BEST1_HUMAN
150 (-) 1.000 0.997 GGAAAggccc R05891
354 (+) 0.988 0.981 gtgtAGACAtt R06227
V$CREL_01c-RelV$EVI1_05Evi-1
Scanning sequence ID: 4F2_HUMAN
365 (+) 1.000 1.000 gggacCTACA R05884
789 (-) 1.000 1.000 gcgCGAAA R05828; R05834; R05835; R05838; R05839
V$CREL_01c-RelV$E2F_02E2F
预期输出:
Sequence ID start end
(end site是添加到起始站点的短序列ggaaaggcc的数目)
BEST1_HUMAN 150 160
BEST1_HUMAN 354 365
4F2_HUMAN 365 375
4F2_HUMAN 789 797
有人能帮我吗
使用this answer中的片段将结果分割为大小均匀的块,并提取所需的数据:
编辑:很明显,结果可能包含可变数量的起始位置,因此,上述均分块的解决方案不起作用。然后可以使用regex路径或逐行遍历文件:
相关问题 更多 >
编程相关推荐