Python:下采样令牌或下采样word2vec模型

2021-12-01 11:45:15 发布

您现在位置:Python中文网/ 问答频道 /正文

我需要一些关于下采样问题的帮助。我必须制作一个更大的语料库(665440个句子,19592258个标记)来与一个更小的语料库(15607个句子,927711个标记)相比较,以便在两个可比较的word2vec模型上实现它们。 每个语料库都是一个列表列表,其中每个列表都是一个标记化句子: e、 g.[['the', 'boy', 'eats']['the', 'teacher', 'explains']...]

我希望对最大的一个进行下采样,使其具有与较小的一个相同数量的标记(保持原始数据结构:对句子进行下采样,直到获得指定数量的标记)。我是一名编程新手,我想到了两种可能的方法,但我不确定如何实现它们: -对列表列表进行下采样 -对经过训练的word2vec模型进行下采样(我在论坛上看到有参数“sample”可以对最频繁的单词进行下采样,但我想得到随机的句子)

你能帮我吗

非常感谢!!:)