从字符串中提取值

0 投票

2 回答

639 浏览

提问于 2025-04-18 06:28

我想在Python中从一个字符串中提取某些值。

snp_1_881627    AA=G;ALLELE=A;DAF_GLOBAL=0.473901;GENE_TRCOUNT_AFFECTED=1;GENE_TRCOUNT_TOTAL=1;SEVERE_GENE=ENSG00000188976;SEVERE_IMPACT=SYNONYMOUS_CODON;TR_AFFECTED=FULL;ANNOTATION_CLASS=REG_FEATURE,SYNONYMOUS_CODON,ACTIVE_CHROM,NC_TRANSCRIPT_VARIANT,NC_TRANSCRIPT_VARIANT;A_A_CHANGE=.,L,.,.,.;A_A_LENGTH=.,750,.,.,.;A_A_POS=.,615,.,.,.;CELL=GM12878,.,GM12878,.,.;CHROM_STATE=.,.,11,.,.;EXON_NUMBER=.,16/19,.,.,.;GENE_ID=.,ENSG00000188976,.,ENSG00000188976,ENSG00000188976;GENE_NAME=.,NOC2L,.,NOC2L,NOC2L;HGVS=.,c.1843N>T,.,n.3290N>T,n.699N>T;REG_ANNOTATION=H3K36me3,.,.,.,.;TR_BIOTYPE=.,PROTEIN_CODING,.,PROCESSED_TRANSCRIPT,PROCESSED_TRANSCRIPT;TR_ID=.,ENST00000327044,.,ENST00000477976,ENST00000483767;TR_LENGTH=.,2790,.,4201,1611;TR_POS=.,1893,.,3290,699;TR_STRAND=.,-1,.,-1,-1

输出结果：

              GENE_ID         GENE_NAME   EXON_NUMBER  SEVERE_IMPACT
snp_1_881627  ENSG00000188976 NOC2L       16/19        SYNONYMOUS_CODON

如果字符串中包含这些变量（如GENE_ID、GENE_NAME、EXON_NUMBER）的值，那么就输出这些值；如果没有这些变量或者它们的值不存在，就输出“NA”。有时候，这些变量在字符串中可能并不存在。

我应该使用哪个字符串方法来完成这个任务？在提取任何值之前，我需要先分割字符串吗？我有1万行数据需要为每个snp_*提取值。

string=string.split(';')

附注：我在Python方面还是个新手。

正则表达式字符串处理数据提取数据清洗信息检索字符串分割变量提取

2 个回答

我觉得这就是你正在寻找的解决方案。

#input
user_in = 'snp_1_881627    AA=G;ALLELE=A;DAF_GLOBAL=0.473901;GENE_TRCOUNT_AFFECTED=1;GENE_TRCOUNT_TOTAL=1;SEVERE_GENE=ENSG00000188976;SEVERE_IMPACT=SYNONYMOUS_CODON;TR_AFFECTED=FULL;ANNOTATION_CLASS=REG_FEATURE,SYNONYMOUS_CODON,ACTIVE_CHROM,NC_TRANSCRIPT_VARIANT,NC_TRANSCRIPT_VARIANT;A_A_CHANGE=.,L,.,.,.;A_A_LENGTH=.,750,.,.,.;A_A_POS=.,615,.,.,.;CELL=GM12878,.,GM12878,.,.;CHROM_STATE=.,.,11,.,.;EXON_NUMBER=.,16/19,.,.,.;GENE_ID=.,ENSG00000188976,.,ENSG00000188976,ENSG00000188976;GENE_NAME=.,NOC2L,.,NOC2L,NOC2L;HGVS=.,c.1843N>T,.,n.3290N>T,n.699N>T;REG_ANNOTATION=H3K36me3,.,.,.,.;TR_BIOTYPE=.,PROTEIN_CODING,.,PROCESSED_TRANSCRIPT,PROCESSED_TRANSCRIPT;TR_ID=.,ENST00000327044,.,ENST00000477976,ENST00000483767;TR_LENGTH=.,2790,.,4201,1611;TR_POS=.,1893,.,3290,699;TR_STRAND=.,-1,.,-1,-1'

#set some empty vars
user_in = user_in.split(';')
final_output = ""
GENE_ID_FOUND = False
GENE_NAME_FOUND = False
EXON_NUMBER_FOUND = False
GENE_ID_OUTPUT = ''
GENE_NAME_OUTPUT = ''
EXON_NUMBER_OUTPUT = ''
SEVERE_IMPACT_OUTPUT = ''


for x in range(0, len(user_in)):
  if x == 0:
    first_line_count = 0
    first_line_print = ''
    while(user_in[0][first_line_count] != " "):
      first_line_print += user_in[0][first_line_count]
      first_line_count += 1
    final_output += first_line_print + "\t"
  else:

    if user_in[x][0:11] == "SEVERE_GENE":
      GENE_ID_OUTPUT += user_in[x][12:] + "\t"
      GENE_ID_FOUND = True

    if user_in[x][0:9] == "GENE_NAME":
      GENE_NAME_OUTPUT += user_in[x][10:] + "\t"
      GENE_NAME_FOUND = True

    if user_in[x][0:11] == "EXON_NUMBER":
      EXON_NUMBER_OUTPUT += user_in[x][12:] + "\t"
      EXON_NUMBER_FOUND = True

    if user_in[x][0:13] == "SEVERE_IMPACT":
      SEVERE_IMPACT_OUTPUT += user_in[x][14:] + "\t"

if GENE_ID_FOUND == True:
  final_output += GENE_ID_OUTPUT
else:
  final_output += "NA"

if GENE_NAME_FOUND == True:
  final_output += GENE_NAME_OUTPUT
else:
  final_output += "NA"

if EXON_NUMBER_FOUND == True:
  final_output += EXON_NUMBER_OUTPUT
else:
  final_output += "NA"

final_output += SEVERE_IMPACT_OUTPUT


print(final_output)

回答于 2025-04-18 由 Python大师

分享举报

这里有两种常用的方法可以解决这个问题 - split 和正则表达式（regex）。

首先，如果你想用 split 方法，第一步是把行标签（比如 snp_1_881627）分开：

rowname, data = row.split()

接下来，你可以用分号（;）把 data 分成一个个独立的条目：

data = data.split(';')

因为你需要获取某些键的值，所以我们可以把它变成一个字典：

dataDictionary = {}
for entry in data:
    entry = entry.split('=')
    dataDictionary[entry[0]] = entry[1] if len(entry) > 1 else None

然后你可以简单地检查这些键是否在 dataDictionary 里，如果在的话就拿到它们的值。

使用 split 的好处是，它会把数据字符串中的所有内容都索引起来，这样你就能轻松找到需要的部分。

如果你需要的内容不会改变，那么使用正则表达式可能是个更好的选择：

>>> import re
>>> re.search('(?<=GENE_ID=)[^;]*', 'onevalue;GENE_ID=SOMETHING;othervalue').group()
'SOMETHING'

在这里，我使用了一个“向后查找”的方法来匹配某个关键词，然后用 group() 从匹配中提取值。把你的关键词放进一个列表里，你可以这样找到所有的值：

import re
...
keywords = ['GENE_ID', 'GENE_NAME', 'EXON_NUMBER', 'SEVERE_IMPACT']
desiredValues = {}
for keyword in keywords:
    match = re.search('(?<={}=)[^;]*'.format(keyword), string_to_search)
    desiredValues[keyword] = match.group() if match else DEFAULT_VALUE

回答于 2025-04-18 由 Python大师

分享举报

从字符串中提取值

2 个回答

撰写回答