如何处理regex中的复合词

2024-06-07 12:02:10 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在制作正则表达式,返回文本中缩略语的定义。我已经解决了许多情况,但我无法解决缩写词的字符数与其实际单词数不同的情况,可能是因为一个单词是复合词,如下图所示

string = 'CRC comes from the words colorectal cancer'

我想根据“结直肠癌”的简写形式得到它。你对我应该采取什么措施有什么建议吗?我曾想过拆分复合词,但这会导致其他问题


Tags: thefrom文本string定义情况字符单词
1条回答
网友
1楼 · 发布于 2024-06-07 12:02:10

在CRC中,第一个单词应该以C开头。下一个单词可以是R或C,如果第二个单词是R,第三个单词应该是C,或者根本没有第三个单词。 同时,你应该检查第二个单词以C开头。如果是这样,你不需要检查第三个单词。或者regex中的条件可能会起到帮助作用。如果我没有足够的数据样本,我无法精确指出如何进行

相关问题 更多 >

    热门问题