我有一个从CMS(医疗保险)Excel电子表格的收集,我想分析,并已成功地导入到一个数据框使用熊猫他们。不幸的是,列名不是统一的,而且许多列名是相似的,但是由于随机空格、新行或额外的信息而有所不同。示例:
或者
我只想单独更改列的名称pandas: Merge two columns with different names?,但是我有超过350个列,它们的列名很有可能在将来更改。你知道吗
一些想法是使用regex来创建匹配名称的案例,但我发现很难捕获所有案例,而且将来可能会遇到新的案例。另一个想法是使用NLP来软匹配列。你知道吗
有什么建议或建议吗?谢谢您!你知道吗
如果列是相同的,但是标签有点不同,您可以手动创建一个标准列列表,并将所有数据帧设置为使用这些列。也就是说,第1列总是“ID号”上的一些变体,第2列总是“血管或循环疾病”上的一些变体,但在编码上存在差异。你知道吗
如果您有一组一致的列,但有些文件的末尾有更多的列(例如,某个列在某个点被添加或删除):
您可以使用difflib内置库比较字符串之间的相似性:
这将输出:
使用它的输出,您可以设置特定级别的敏感度来合并列(即,如果output>;.5->;merge)
相关问题 更多 >
编程相关推荐