使用自动编码器实现两两文本相似性

2024-04-24 10:11:35 发布

您现在位置:Python中文网/ 问答频道 /正文

我的数据集只包含500个样本。数据集有三列

  1. 句子1
  2. 句子2
  3. 0或1(表示相似性)

我的任务是训练一个编码器,它将两个句子作为输入,如果句子相似,则返回1,否则返回0

我使用预先训练过的word2vec嵌入来提取特征。我的模型只有50%的准确率

sent_in = Input(shape=(150, ))
sent_emb = Embedding(input_dim=vocab_size, output_dim=300, weights=[E],)(sent_in)
conv1 = Conv1D(32, 5, activation='relu', padding='same')(sent_emb)
pool1 = MaxPooling1D(2)(conv1)
conv2 = Conv1D(64, 5, activation='relu', padding='same')(pool1)
pool2 = MaxPooling1D(2)(conv2)
conv3 = Conv1D(128, 5, activation='relu', padding='same')(pool2)
flat1 = Flatten()(conv3)

sent_in2 = Input(shape=(150, ))
sent_emb2 = Embedding(input_dim=vocab_size, output_dim=300, weights=[E],)(sent_in2)
conv4 = Conv1D(32, 5, activation='relu', padding='same')(sent_emb2)
pool3 = MaxPooling1D(2)(conv4)
conv5 = Conv1D(64, 5, activation='relu', padding='same')(pool3)
pool4 = MaxPooling1D(2)(conv5)
conv6 = Conv1D(128, 5, activation='relu', padding='same')(pool4)
flat2 = Flatten()(conv6)

concatenated = concatenate([flat1, flat2])

dense1 = Dense(32, activation='relu')(concatenated)
out = Dense(1, activation='sigmoid')(dense1)
model = Model(inputs=[sent_in,sent_in2], outputs=out)
model.summary()

我的网络如下图所示

My Network

问题:

1)每个自动编码器必须有一个编码器和一个解码器吗

2)如何提高我的准确性


Tags: 数据ininput编码器activation句子sentrelu
1条回答
网友
1楼 · 发布于 2024-04-24 10:11:35

1) Must every autoencoder have an encoder and a decoder?

是的,这是必须的。如果你打算把编码器和解码器训练成独立的神经网络,你可能很快就会面临这样一个问题:我们不知道编码(特征压缩集)应该是什么。 没有标签表明输入特征应与此特定编码相对应。 因此,不可能训练我们的编码器!没有编码器,我们就没有编码,因此我们没有解码器的输入功能! 这使得训练我们的解码器也不可能

2) How can I improve my accuracy?

我想这里已经回答了这个问题:How to improve the accuracy of autoencoder?

下面的解释也有帮助:

自动编码器对卷积神经网络分类任务准确性的影响

可以合理地说,较低的编码大小导致较低的精度,并且当 编码大小达到一定的数值,因为较低的编码大小意味着图像数据中的损失更大,这意味着 重构后的图像将与原始数据更为不同。此外,即使编码的大小很大 足够了,图像数据仍然存在丢失。因此,精度仍然低于原始精度和精度 在框中,绘图停止增加。当自动编码器使用足够大的编码大小进行训练时 这两种情况的准确率约为92%。与CNN相比,CNN以原始数据为输入,实现了 准确率为99%,自动编码器造成的准确度损失不会太大

这是基于研究论文

相关问题 更多 >