参照页签模糊匹配

2024-05-16 01:53:14 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图将非标准的医疗诊断描述与ICD10参考表描述相匹配,以获得ICD10代码。将是模糊匹配。例如

我想把“短暂性脑缺血发作”和“暂时性脑缺血发作,未指明”(ICD10代码G45.9)相匹配。或“顽固性恶心、呕吐”改为“恶心呕吐,未指明”(ICD10代码R11.2)。在

使用R或python进行这种类型的模糊匹配的最佳方法是什么?在

我查看了R中的stringdist包,了解了各种“stringdist”度量,结果喜忧参半。我也在考虑用词袋技术,但我不知道在我的情况下如何使用它。因为我比较的是小字符串而不是文本文档。在

谢谢


Tags: 方法字符串代码类型度量情况技术非标准
1条回答
网友
1楼 · 发布于 2024-05-16 01:53:14

我通过搜索fuzzy match Python找到了fuzzyfuzzy。我没有使用它的经验,但它似乎可以做到这一点。在

“像老板一样模糊的串匹配。它使用Levenshtein Distance帮助计算序列之间的差异,这是一个简单易用的软件包。”

fuzzywuzzy on github

您的问题类似于this one,它的答案可能与您的问题有关。具体来说,得分的概念有多强的比赛将是有用的。在

stackoverflow(fuzzy-comparison)上还有一个标记,它可能会提供更多线索。在

相关问题 更多 >