如何将NMT的句子列表展平为一个“句子”,以便于skipgram嵌入?

2024-04-19 02:35:50 发布

您现在位置:Python中文网/ 问答频道 /正文

上下文

在实现神经机器翻译之前,首先要学习源语言和目标语言的嵌入。为此,我们使用skip-gramWord2Vec模型。你知道吗

上面链接的Tensorflow教程以单词列表开始。为了创建嵌入,每个单词作为输入来预测存在于输入单词的winodow中的目标单词。因此,具有相似语境的词得到相似的嵌入。你知道吗

例如 ["I", "have", "a", "dog"]可能会生成这些输入/输出对:["have", "a"]["a", "dog"]。你知道吗

问题

对于NMT,数据集中存在许多不同的语句,所有这些语句都应该用于嵌入。最简单的串联“解决方案”是不可行的,因为一句话的结尾可能(不正确!)用作第二句开头的上下文。你知道吗

Google的教程没有提供任何关于如何处理NMT嵌入的概述——应该如何处理这些嵌入?你知道吗

示例

["I", "have", "a", "dog"]["You", "have", "a", "cat"]["He", "is", "a", "blueberry"]

需要变成大小为12的list——或者需要在how中更改其他内容—它们是批处理的,以避免生成不正确的输入/输出对。你知道吗


Tags: 模型列表链接tensorflowhave教程语句单词