有效地预处理字符串列表

mesh = "Adrenergic beta-Antagonists/*therapeutic use, Adult, Aged, Aged/*effects, Antihypertensive Agents/*therapeutic use, Blood Glucose/*drug effects, Celiprolol/*therapeutic use, Female, Glucose Tolerance Test, Humans, Hypertension/*drug therapy, Male, Middle Aged, Prospective Studies"

mesh = "Adrenergic beta-Antagonists, Adult, Aged, Aged, Antihypertensive Agents, Blood Glucose, Celiprolol, Female, Glucose Tolerance Test, Humans, Hypertension, Male, Middle Aged, Prospective Studies"

import string mesh = "Adrenergic beta-Antagonists/*therapeutic use, Adult, Aged, Aged/*effects, Antihypertensive Agents/*therapeutic use, Blood Glucose/*drug effects, Celiprolol/*therapeutic use, Female, Glucose Tolerance Test, Humans, Hypertension/*drug therapy, Male, Middle Aged, Prospective Studies" newMesh = [] for each in mesh.split(","): newMesh.append(each.split('/', 1)[0].lstrip(' ')) newMesh = list(set(newMesh)) meshString = ",".join(newMesh) print(meshString)

2条回答

网友

1楼 · 编辑于 2024-05-23 21:11:08

您可以使用re.sub：

mesh = "Adrenergic beta-Antagonists/*therapeutic use, Adult, Aged, Aged/*effects, Antihypertensive Agents/*therapeutic use, Blood Glucose/*drug effects, Celiprolol/*therapeutic use, Female, Glucose Tolerance Test, Humans, Hypertension/*drug therapy, Male, Middle Aged, Prospective Studies"
import re
s = re.sub("\/\*[\w\s]+", '', mesh)
final_string = []
for i in re.split(",", s):
    if i not in final_string:
        final_string.append(i)

new_final_string = ', '.join(final_string)
print(new_final_string)

输出：

'Adrenergic beta-Antagonists,  Adult,  Aged,  Antihypertensive Agents,  Blood Glucose,  Celiprolol,  Female,  Glucose Tolerance Test,  Humans,  Hypertension,  Male,  Middle Aged,  Prospective Studies'

网友

2楼 · 编辑于 2024-05-23 21:11:08

使用re.sub()函数和set对象（用于更快的项目搜索）：

import re

mesh = "Adrenergic beta-Antagonists/*therapeutic use, Adult, Aged, Aged/*effects, Antihypertensive Agents/*therapeutic use, Blood Glucose/*drug effects, Celiprolol/*therapeutic use, Female, Glucose Tolerance Test, Humans, Hypertension/*drug therapy, Male, Middle Aged, Prospective Studies"
word_set = set()
result = []

for w in re.sub(r'/[^,]+', '', mesh).split(','):
    w = w.strip()
    if w not in word_set:
        result.append(w)
        word_set.add(w)
result = ', '.join(result)

print(result)

输出：

Adrenergic beta-Antagonists, Adult, Aged, Antihypertensive Agents, Blood Glucose, Celiprolol, Female, Glucose Tolerance Test, Humans, Hypertension, Male, Middle Aged, Prospective Studies

相关问题更多 >

编程相关推荐

热门问题

热门文章