我正在研究一个使用多头部注意力转换模型的文本简化项目。同样,我使用torchtext进行标记化和数值化。数据集包含两个用于培训的对齐文件和两个用于测试的对齐文件。在训练文件中,一个文件包含复杂句子,另一个文件包含相应的简化句子。在
我是这样看文件的:
training_sentences = open(path + "train.en" , encoding = "utf-8").read().split("\n")
target_sentences = open(path + "train.sen" , encoding = "utf-8").read().split("\n")
接下来,我将它们标记为:
^{pr2}$然后我转换成torchtext的TablerDataset对象。在
^{3}$然后创造了词汇
C_TEXT.build_vocab(train)
S_TEXT.build_vocab(train)
但是,这样做时,我得到了一个错误:
TypeError: '<' not supported between instances of 'Example' and 'Example'
在搜索时,我遇到了这个解决方案here,错误消失了。但是,我不明白这是使模型只使用一个实例还是它需要所有的数据集?
我想知道索引[0]
的重要性,这样我就可以为我的模型有效地操纵它。在
在声明中:
索引
[0]
用于解压以定制类型tablardataset(tuple)返回的数据集 在上面的语句末尾添加一个索引,我们可以访问元组中的单个元素。在但是在声明中
^{pr2}$解包是自动完成的,元组的第一个元素在
train
中,第二个元素在val
中相关问题 更多 >
编程相关推荐