暹罗网络结构在版权侵权检测中的基本实现
cimese_net的Python项目详细描述
本文实现了一个神经网络来检测新上传视频文件中的版权侵权行为。该模型采用暹罗网络的一般形式,将两幅图像通过相同的卷积神经网络进行滤波,然后根据两幅图像匹配的概率进行分类。为了训练模型,从一组高分辨率的电影视频文件和相应的一组低质量的电影记录中提取帧。从高质量文件中随机选择的帧与录制版本中的相应帧(匹配)以及另一部电影中的帧(不匹配)配对;这些称为三胞胎。每个图像都经过初始卷积层集,卷积层从预先训练的vgg16神经网络中获取结构和权重,然后返回长度为4096的向量。这将作为一组新顶层的输入,用于将成对图像分类为匹配与否。除了特征提取和分类模型之外,还实现了一种将录制的片段与完整电影对齐的方法,以优化神经网络的性能。顶级函数输出单个侵权概率,该概率是沿潜在侵权剪辑长度预测的匹配概率的平均值。