如何在python中使用带有不同数量空格的regex

2024-05-15 22:00:00 发布

您现在位置:Python中文网/ 问答频道 /正文

我想在这里重新格式化我的数据:

gi|492845765|ref|WP_005999719.1| DNA methyltransferase [[Eubacterium] infirmum]

进入

[[Eubacterium]infirmum]gi|492845765|

也就是说,我只想保留gi编号和有机体名称(在gi编号前面有有机体名称),并去掉“额外”信息(在本例中,ref编号和“DNA甲基转移酶”)。你知道吗

I would do re.sub(r"(\w+ |\w + |) \w+|\w_\w|\s\w+\s\w\s ([.]), \2\1, line)

(或者类似的)

然而,我的其他一些数据行在“额外”信息中有两个以上的单词。 示例:

gi|548229945|ref|WP_022448665.1| dNA (Cytosine-5-)-methyltransferase [Roseburia sp. CAG:303]

我该如何编写一个regex表达式来重命名我的所有数据,以便将有机体名称放在前面,将gi编号放在后面,并删除其他所有数据?你知道吗


Tags: 数据re名称ref信息do编号dna