合并包含相同信息但列名略有不同的列

2条回答

网友

1楼 · 编辑于 2024-05-13 23:43:13

如果列是相同的，但是标签有点不同，您可以手动创建一个标准列列表，并将所有数据帧设置为使用这些列。也就是说，第1列总是“ID号”上的一些变体，第2列总是“血管或循环疾病”上的一些变体，但在编码上存在差异。你知道吗

data_frames = []
for file in files:
   df = pd.read_excel(f)
   df.columns = ['ID Number', 'Vascular or Circulatory Disease'] # and so forth
   data_frames.append(df)

combined = pd.concat(data_frames)

如果您有一组一致的列，但有些文件的末尾有更多的列（例如，某个列在某个点被添加或删除）：

def set_columns(data, columns):
    if len(data.columns) < len(columns):
        diff = len(data.columns) - len(columns)
        data.columns = columns[:diff]
        # Add missing columns
        for i in range(diff, 0):
            data[columns[i]] = np.nan
    else:
        data.columns = columns
    return data

网友

2楼 · 编辑于 2024-05-13 23:43:13

您可以使用difflib内置库比较字符串之间的相似性：

from difflib import SequenceMatcher

def get_sim_ratio(x, y):
    return SequenceMatcher(None, x, y).ratio()

print(get_sim_ratio('Vascular or Circulatory Disease', 'Vascular or Circulatory Disease (CC 104-106)'))
print(get_sim_ratio('Endocrine Disease', 'Vascular or Circulatory Disease (CC 104-106)'))

这将输出：

0.8266666666666667
0.36065573770491804

使用它的输出，您可以设置特定级别的敏感度来合并列（即，如果output>；.5->；merge）

相关问题更多 >

编程相关推荐

热门问题

热门文章

合并包含相同信息但列名略有不同的列

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >