使用spacy,如何确保字母序列不会被拆分为标记

2021-11-29 23:09:06 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在寻找一种方法来确保每当序列"#*"出现在文本中时,spacy都会给我标记"#*"。我尝试了各种可能的方法来添加add_special_case的特殊情况,使用prefix_searchsuffix_searchinfix_finditertoken_match构建一个自定义标记器,但是仍然存在这样的情况:如果一个"#*"出现在一个句子中,即使它被不奇怪的标记(应该毫无问题地被识别的标记)包围,也会将"#*"拆分为 [#, *]. 我能做什么?你知道吗

谢谢。你知道吗