上下文
在实现神经机器翻译之前,首先要学习源语言和目标语言的嵌入。为此,我们使用skip-gram
Word2Vec模型。你知道吗
上面链接的Tensorflow教程以单词列表开始。为了创建嵌入,每个单词作为输入来预测存在于输入单词的winodow中的目标单词。因此,具有相似语境的词得到相似的嵌入。你知道吗
例如
["I", "have", "a", "dog"]
可能会生成这些输入/输出对:["have", "a"]
或["a", "dog"]
。你知道吗
问题
对于NMT,数据集中存在许多不同的语句,所有这些语句都应该用于嵌入。最简单的串联“解决方案”是不可行的,因为一句话的结尾可能(不正确!)用作第二句开头的上下文。你知道吗
Google的教程没有提供任何关于如何处理NMT嵌入的概述——应该如何处理这些嵌入?你知道吗
示例
["I", "have", "a", "dog"]
["You", "have", "a", "cat"]
["He", "is", "a", "blueberry"]
需要变成大小为12的list
——或者需要在how中更改其他内容—它们是批处理的,以避免生成不正确的输入/输出对。你知道吗
目前没有回答
相关问题 更多 >
编程相关推荐