解析带标记的datastring，而不是purestring

You will have to join us before the match starts. [('You', 'PRON', 'nsubj'), ('will', 'VERB', 'aux'), ('have', 'AUX', 'ROOT'), ('to', 'PART', 'aux'), ('join', 'VERB', 'xcomp'), ('us', 'PRON', 'dobj'), ('before', 'ADP', 'mark'), ('the', 'DET', 'det'), ('match', 'NOUN', 'nsubj'), ('starts', 'VERB', 'advcl'), ('.', 'PUNCT', 'punct')]

1条回答

网友

1楼 · 发布于 2024-04-26 21:03:49

在DCG中，列表元素是泛型的，因为它们是Prolog变量。然后，您可以用最自然的方式表示模式匹配，使用匿名变量_，其中不关心实际值：


% SVO : token.nsubj token*? token.root token*? token.pobj { sent += svo(root, nsubj, pobj)  }
svo(svo(Y,X,Z))  >
   [(X,'PRON',nsubj),_,(Y,_,'ROOT'),_,(Z,_,pobj)].

% adj : token.adj { sent += adj(word) }
adj(adj(X))  >
   [(X,_,'ADJ')].

对不起，我不知道spacy格式，请接受我以上的猜测，因为很可能是错的

关于令牌的形成，IMHO可以更容易地将令牌化直接处理到DCG中，而不依赖于lexer。当然，如果文件维度是“合理的”。我这样做是为了解析一些MySQL备份（纯SQL，大约10~30MB），它在SWI Prolog中运行良好

相关问题更多 >

编程相关推荐

热门问题

热门文章