如何在不使用range（）python的情况下删除文本文档的特定部分

LOCUS: SCU49845 ACCESSION: U49845 ORGANISM: Saccharomyces cerevisiae (baker's yeast) AUTHORS: Roemer,T., Madden,K., Chang,J. and Snyder,M. TITLE: Selection of axial growth sites in yeast requires Axl2p, a novel plasma membrane glycoprotein JOURNAL: Genes Dev. 10 (7), 777-793 (1996) PUBMED: 8846915 SOURCE: https://www.ncbi.nlm.nih.gov/nuccore/U49845.1?report=genbank&to=5028 GATCCTCCATATACAACGGTATCTCCACCTCAGGTTTAGATCTCAACAACGGAACCATTGCCGACATGAG ACAGTTAGGTATCGTCGAGAGTTACAAGCTAAAACGAGCAGTAGTCAGCTCTGCATCTGAAGCCGCTGAA GTTCTACTAAGGGTGGATAACATCATCCGTGCAAGACCAAGAACCGCCAATAGACAACATATGTAACATA TTTAGGATATACCTCGAAAATAATAAACCGCCACACTGTCATTATTATAATTAGAAACAGAACGCAAAAA

3条回答

网友

1楼 · 编辑于 2024-05-23 23:01:50

好的，澄清一下，并展示我得到的答案，以防万一其他人也有同样的问题。你知道吗

我被允许使用re，我和我的教授商量过了。你知道吗

但任务是“定义一个函数，这样，如果从文本文件（*.txt）输入，就可以找到所有的DNA序列并提供补码”

多亏了你们，还有一些年轻人，这就是我想到的：（我100%肯定它可能会被清理，但它要到星期一才到期）

import re
def dnaMatching(t):
    with open(t) as n:
        dna = [line for line in m if re.match(r'^[AGCT]+$', line)]
    complement = ""
    for i in dna:
        for x in i:
            if x == 'A':
                complement += 'T'
            elif x == 'G':
                complement += 'C'
            elif x == 'C':
                complement += 'G'
            elif x == 'T':
                complement += 'A'
    return complement

非常感谢你们的帮助！你知道吗

网友

2楼 · 编辑于 2024-05-23 23:01:50

如果您只是想获取dna序列，可以使用正则表达式遍历文件：

import re

with open(somefile) as fh:
     mydna = [line for line in fh if re.match('^[AGCT]+$', line)]

mydna
# ['GATCCTCCATATACAACGGTATCTCCACCTCAGGTTTAGATCTCAACAACGGAACCATTGCCGACATGAG',
# 'ACAGTTAGGTATCGTCGAGAGTTACAAGCTAAAACGAGCAGTAGTCAGCTCTGCATCTGAAGCCGCTGAA',
# 'GTTCTACTAAGGGTGGATAACATCATCCGTGCAAGACCAAGAACCGCCAATAGACAACATATGTAACATA',
# 'TTTAGGATATACCTCGAAAATAATAAACCGCCACACTGTCATTATTATAATTAGAAACAGAACGCAAAAA']

这样您就不会忽略任意数量的行，尽管这不是一个具体的答案。你知道吗

要构建补码dna字符串，可以使用字典将碱基映射到它们的补码，并对每个字符串进行迭代，如下所示：

mapping = {'A': 'T', 'T': 'A', 'C': 'G', 'G':'C'}

# .get(base, ' ') will either return the value or an empty string
# mapping.get('A', ' ') will return 'T' whereas mapping.get('U', ' ') will 
# return ' '
complements = [''.join(mapping.get(base, ' ') for base in dna) for dna in mydna]

网友

3楼 · 编辑于 2024-05-23 23:01:50

熊猫回答：

import pandas as pd

df = pd.read_csv(sep="\n", header=None, names = ['code'])

regex = "[^ATCG]+\\b"     # Regex that gets eveything that's not a DNA code.
filter = df['code'].str.contains(regex)
df = df[~filter]          # Keep only the DNA codes.

相关问题更多 >

编程相关推荐

热门问题

热门文章