我该怎么做检索具有多字符通配符的子字符串？

网友

1楼 · 编辑于 2024-05-16 04:38:50

你不需要向后看，向前看就可以实现这个目标。你知道吗

\d{1,4}表示min 1max 4位，否则不匹配

fastq_runid_(.+)_\d{1,4}\.fastq

https://regex101.com/r/VneElM/1

网友

2楼 · 编辑于 2024-05-16 04:38:50

import re

text = "fastq_runid_0dc971f49c42ffb1412caee485f8421a1f9a26ed_999.fastq"

print(text)
substring= re.search('fastq_runid_(\w+)_(\d+)\.fastq', text)

print(substring.group(1), substring.group(2))

group(1)将给出您想要的，group(2)将给出计数器。你知道吗

网友

3楼 · 编辑于 2024-05-16 04:38:50

在regex (?<=runid_).*?(?=_*.fastq)中有一个小问题。你已经写了_*，这意味着零个或更多的下划线，这将使下划线成为可选的，并将跳过匹配，你的.*?也将在它里面吃_0，这就是为什么在你的结果中你也得到_0。我想你的意思是_.*，而且你应该在fastq之前避开.，所以你的更新正则表达式应该是这样的

(?<=runid_).+(?=_\d{1,4}\.fas)

Demo

更新的python代码

import re

text = "fastq_runid_0dc971f49c42ffb1412caee485f8421a1f9a26ed_0.fastq"

print(text)
substring= re.search('(?<=runid_).+(?=_\d{1,4}\.fas)', text).group(0)

print(substring)

指纹

0dc971f49c42ffb1412caee485f8421a1f9a26ed

另外，您也可以使用一个简单的正则表达式而不使用lookarounds，并使用这个正则表达式从第一个组捕获文本

runid_([^_]+)(?=_\d{1,4}\.fas)

Demo

python代码中的文本从group(1)而不是group(0)中选取

import re

text = "fastq_runid_0dc971f49c42ffb1412caee485f8421a1f9a26ed_0.fastq"

print(text)
substring= re.search('runid_([^_]+)(?=_\d{1,4}\.fas)', text).group(1)

print(substring)

在这种情况下也会打印出来

0dc971f49c42ffb1412caee485f8421a1f9a26ed

相关问题更多 >

编程相关推荐

热门问题

热门文章

我该怎么做检索具有多字符通配符的子字符串？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >