Towards Multimodal Disinformation Detection by Vision-language Knowledge Interaction

Abstract

针对行人重识别中可用行人图像不足导致的小样本问题,以双相似网络为基础,提出一种基于多尺度混合注意力与度量融合的小样本行人重识别方法.首先,将多尺度混合注意力机制引入特征嵌入模块,即在不同尺度层内的特征提取中引入空间注意力,在不同尺度层间的特征融合中引入通道注意力,实现更具判别力的小样本行人特征提取;然后,在度量模块,提出欧氏距离与余弦距离融合的双重度量方法,实现行人特征的空间绝对距离和方向差异的综合度量,提升行人相似性度量的可靠性;接着,采用双重度量方式和关系度量方式,分别获得行人特征的相似度得分;最后,通过加权融合获得联合度量得分,构建联合损失实现网络的整体优化和训练.在Market-mini、Duke-mini和MSMT17-mini三个小型数据集上的实验表明,所提出方法在5-way 1-shot和5-way 5-shot两种模式下的平均识别准确率分别达到90.40%和95.69%、86.77%和94.96%、71.08%和82.63%,与其他小样本学习算法相比,识别性能有较大提升.

Publication
控制与决策
Mingliang Gao
Mingliang Gao
Associate Professor