我正在使用亚马逊医疗实体检测的伤害
假设我有一段文字如下:
约翰做了手术,修复了左膝脱臼和前交叉韧带撕裂
亚马逊医疗公司(ACM)能够将脱臼视为一种疾病。不过,请考虑下一段文字:
“约翰因右膝盖骨脱臼而缺席。”
在这篇文章中,ACM无法将脱臼视为一种疾病。同样地,如果我输入一段文字,比如“左脚踝扭伤”,ACM能够将脚踝扭伤识别为一种医疗状况,但是如果我输入“左脚踝扭伤”,它就不能理解“扭伤作为一种医疗状况”这个词
有没有什么方法可以让我清理文本,改变单词的顺序,以便这些实体可以被准确地标记
Tags:
你要找的是所谓的柠檬化。例如,您可以使用NLTK工具箱将每个单词简化为其非屈折基本形式(引理),这将使您以“dislocate”和“sprain”作为基本形式。这可以提高实体检测的精度。单词的顺序实际上并不重要。否则,训练你自己的NER(https://nlpforhackers.io/named-entity-extraction/)
相关问题 更多 >
编程相关推荐