基于预训练嵌入词集的词义消歧

2024-05-15 23:00:49 发布

您现在位置:Python中文网/ 问答频道 /正文

我感兴趣的是为一组标记中的每个单词识别WordNet语法集ID。 集合中的单词为词义消歧提供上下文,例如:

  • {痣,皮肤}
  • {鼹鼠、草、毛皮}
  • {摩尔,化学}
  • {河岸,河流,河岸}
  • {银行、资金、建筑}

我知道lesk算法和库,比如pywsd,它基于10多年前的技术(可能仍然是最前沿的——这是我的问题)

目前是否有性能更好的算法能够理解预先训练的嵌入,比如GloVe,以及这些嵌入之间的距离? 是否有这种WSD算法的现成实现

我知道这个问题接近于询问主观偏好的危险区域——就像这个5岁的孩子一样。但我并不是要求对选项进行概述,也不是要求提供解决问题的最佳软件


Tags: 标记算法id语法银行单词感兴趣wordnet
1条回答
网友
1楼 · 发布于 2024-05-15 23:00:49

迁移学习,特别是Allen AI的ELMO、OpenAI的Open GPT和Google的BERT等模型,使研究人员能够用最少的特定任务微调打破多个基准,并为NLP社区的其他成员提供了可以轻松实现的预训练模型(数据更少,计算时间更短)进行微调和实施,以产生最先进的结果

这些表示将帮助您准确检索与客户意图和上下文含义()匹配的结果,即使没有关键字或短语重叠

首先,嵌入是高维向量空间中点的简单(适度)低维表示

通过将一个单词转换为嵌入,可以以数字形式对单词的语义重要性进行建模,从而对其执行数学运算

当word2vec模型首次实现这一点时,这是一个惊人的突破。从那时起,出现了许多更高级的模型,这些模型不仅捕获了静态语义,而且还捕获了语境化语义。例如,考虑下面的两个句子:

I like apples.

I like Apple macbooks

注意,苹果这个词在每个句子中都有不同的语义。现在有了一个上下文化的语言模型,苹果这个词的嵌入将有一个不同的向量表示,这使得它对于NLP任务更加强大

与Word2Vec等模型相比,像BERT这样的上下文嵌入提供了一个优势,因为不管单词出现在什么上下文中,每个单词在Word2Vec下都有一个固定的表示形式,而BERT生成的单词表示形式是由它们周围的单词动态通知的

相关问题 更多 >