我有以下格式的数据
我想从“诊断”列中提取代码,并将每个代码粘贴到“诊断”列后的单独列中。我知道用来匹配这个的正则表达式是
[A-TV-Z][0-9][0-9AB]。?[0-9A-TV-Z]{0,4}
资料来源:https://www.johndcook.com/blog/2019/05/05/regex_icd_codes/
这些代码称为ICD10代码,如Z01.2、E11等。上述表达式旨在匹配所有ICD10代码
但是我不知道如何在python代码中使用这个表达式来完成上述任务
我想解决的问题是
提前谢谢
使用Python的方法如下
代码
解释
以制表符分隔的CSV格式导入的数据
结果数据帧df
使用指定的模式从诊断列中提取
在前面添加转义字符。否则,它将是一个通配符并匹配任何字符(提供的数据没有差异)
df['code']列中的每一行都是代码列表
将长度列添加到df数据帧
df['Length']对应于每个代码列表的长度
使用的代码总数是代码长度的总和
代码总数:17
用于连接所有代码列表的所有代码
计数:17
使用的唯一代码取所有代码列表的set()
按代码选择患者(即Z01.2)
显示这些患者的患者姓名和手机号码
结果
相关问题 更多 >
编程相关推荐