如何将NMT的句子列表展平为一个“句子”，以便于skipgram嵌入？

2024-04-19 02:35:50 发布

男 | 程序猿一只，喜欢编程写python代码。

上下文

在实现神经机器翻译之前，首先要学习源语言和目标语言的嵌入。为此，我们使用skip-gramWord2Vec模型。你知道吗

上面链接的Tensorflow教程以单词列表开始。为了创建嵌入，每个单词作为输入来预测存在于输入单词的winodow中的目标单词。因此，具有相似语境的词得到相似的嵌入。你知道吗

例如 ["I", "have", "a", "dog"]可能会生成这些输入/输出对：["have", "a"]或["a", "dog"]。你知道吗

问题

对于NMT，数据集中存在许多不同的语句，所有这些语句都应该用于嵌入。最简单的串联“解决方案”是不可行的，因为一句话的结尾可能（不正确！）用作第二句开头的上下文。你知道吗

Google的教程没有提供任何关于如何处理NMT嵌入的概述——应该如何处理这些嵌入？你知道吗

示例

["I", "have", "a", "dog"]["You", "have", "a", "cat"]["He", "is", "a", "blueberry"]

需要变成大小为12的list——或者需要在how中更改其他内容—它们是批处理的，以避免生成不正确的输入/输出对。你知道吗

Tags：模型列表链接 tensorflow have 教程语句单词

0条回答

目前没有回答