我想在这里重新格式化我的数据:
gi|492845765|ref|WP_005999719.1| DNA methyltransferase [[Eubacterium] infirmum]
进入
[[Eubacterium]infirmum]gi|492845765|
也就是说,我只想保留gi编号和有机体名称(在gi编号前面有有机体名称),并去掉“额外”信息(在本例中,ref编号和“DNA甲基转移酶”)。你知道吗
I would do re.sub(r"(\w+ |\w + |) \w+|\w_\w|\s\w+\s\w\s ([.]), \2\1, line)
(或者类似的)
然而,我的其他一些数据行在“额外”信息中有两个以上的单词。 示例:
gi|548229945|ref|WP_022448665.1| dNA (Cytosine-5-)-methyltransferase [Roseburia sp. CAG:303]
我该如何编写一个regex表达式来重命名我的所有数据,以便将有机体名称放在前面,将gi编号放在后面,并删除其他所有数据?你知道吗
这可能会满足您的要求:
使用
\2\3\1
作为替换模式,$2$3$1
的效果似乎是一样的。你知道吗例如:http://regex101.com/r/aP6lB9
相关问题 更多 >
编程相关推荐