我试图将非标准的医疗诊断描述与ICD10参考表描述相匹配,以获得ICD10代码。将是模糊匹配。例如
我想把“短暂性脑缺血发作”和“暂时性脑缺血发作,未指明”(ICD10代码G45.9)相匹配。或“顽固性恶心、呕吐”改为“恶心呕吐,未指明”(ICD10代码R11.2)。在
使用R或python进行这种类型的模糊匹配的最佳方法是什么?在
我查看了R中的stringdist包,了解了各种“stringdist”度量,结果喜忧参半。我也在考虑用词袋技术,但我不知道在我的情况下如何使用它。因为我比较的是小字符串而不是文本文档。在
谢谢
Tags:
我通过搜索
fuzzy match Python
找到了fuzzyfuzzy。我没有使用它的经验,但它似乎可以做到这一点。在“像老板一样模糊的串匹配。它使用Levenshtein Distance帮助计算序列之间的差异,这是一个简单易用的软件包。”
fuzzywuzzy on github
您的问题类似于this one,它的答案可能与您的问题有关。具体来说,得分的概念有多强的比赛将是有用的。在
stackoverflow(
fuzzy-comparison
)上还有一个标记,它可能会提供更多线索。在相关问题 更多 >
编程相关推荐