基于内容的图像检索局部特征提取算法的研究

(整期优先)网络出版时间:2021-04-24
/ 2

基于内容的图像检索局部特征提取算法的研究

高云龙 1、阚港辉 2、柴文强 3

( 1. 武汉轻工大学 430048 2. 上海工程技术大学 3. 西安工程大学 236400)

摘要:基于内容的图像检索离不开特征提取,而局部特征提取是当前研究热点之一,由于局部特征之间的独立性和高语义性,此种方法在基于内容的图像检索领域有着良好的表现[1]。为了进一步提高局部特征的语义性、提升特征提取模型的表现力,本文引入视觉注意力机制与分组卷积思想对当前的局部特征提取模型进行优化,经实验证实,优化后的模型提取出的局部特征在Oxford数据集以及Paris数据集有着更好的检索效果。

1.简介

信息技术日益发展的今天,图像检索方法是计算机视觉领域的重要研究分支,各种计算机视觉任务催生了对海量图像检索分析的需求,从海量图像数据中快速检索和匹配到需要的目标是当前研究的热点,即基于内容的图像检索CBIR [2]

近年来,深度学习在各种计算机视觉任务上都取得了重大的突破.由于深度卷积神经网络强大的非线性表示能力,能够理解图像更深层次的信息,它在目标检测、图像分类和图像分割等方面都表现出了良好的性能[3]。而在图像检索领域,基于机器学习的局部特征提取技术也成为了研究热点之一,以DELF(DEep Local Feature)模型为例,通过使用卷积网络模型,提取待检索图像与索引库图像的局部特征,经试验证实,该方法在Oxford数据集和Paris数据集均取得了良好的实验效果[4]

DELF模型通过引入一种视觉注意力机制,即关键点注意力机制,实现对局部特征的重标定,增强对任务作用较大的特征权重,降低或抑制对任务作用较小的权重,来提升特征提取模型的表达能力[5]

虽然DELF模型在图像检索领域具有良好的表现,但DELF模型仅仅引入一种注意力机制,而实验证明,引入多种注意力机制相结合的特征提取模型往往优于单一注意力机制模型[6],故该模型仍有一定的优化潜力。

2 相关工作

本文通过引入第二种注意力机制,即通道域注意力机制,实现对特征提取过程中的不同通道特征进行重标定,增强对检索任务重要的通道权重,抑制无用通道的权重,提升局部特征提取模型的表现力。

结合分组卷积思想,对DELF模型的密集局部特征提取阶段的网络进行优化,通过引入更为稀疏的网络结构,增大模型的参数利用率,使得模型在拥有相同参数的同时,具备更好的提取能力。

3.1 DELF模型

DELF模型是图像检索领域中表现良好的局部特征提取模型[7],如下图所示:

6083b2ad5e445_html_5e5f790294012c58.png

DELF模型的密集局部特征提取网络采用ResNet-50网络作为基础网络,并将最后两层全连接层换成卷积层,构建FCN网络提取出特征热图,再使用关键点注意力模块为若干关键点进行打分加权,最终提取的特征称之为DELF特征。

3.2 基于通道域注意力优化密集特征提取

通过引入通道域注意力,实现两种视觉注意力机制相结合,提取出具有更高语义信息的特征,提升模型表现能力,通道域注意力机制如下图所示:

6083b2ad5e445_html_1d00c8126168a828.png

通道域注意力机制的实现通常包括三个模快,压缩操作、激励操作、重标定操作[8]。引入通道域注意力机制的模型本文暂称为DELF-CDA模型。将该机制引入到密集局部特征提取网络模快,具体如下所示:

6083b2ad5e445_html_8247977961a2084.png

4.实验及分析

为了作为对照,本文将初始DELF模型与结合了不同优化思想的模型作为对照,在Oxford数据集[9]与Paris数据集[10]进行相关实验,结果如下:

表4.1 两种不同模型的在不同数据集的MAP表现


DELF

DELF-CDA

DELF-GC

DELF-GC-CDA

Oxford

Paris

84.96

80.60

86.01

81.50

85.33

81.32

87.35

82.1


从实验结果不难发现,DELF模型同时结合了两种不同域的视觉注意力后,具有更好的检索效果,为了进一步评测模型的复杂度与参数量,本文做出相关实验,实验结果如下所示:

表4.2 两种不同模型的Params和Flops

模型

Params (M)

Flops (G)

DELF

DELF-CDA

12.13

12.63

8.02

8.67

通过实验结果不难看出,引入两种视觉注意力,并没有牺牲模型复杂度,且模型参数量并无太大变化,实现了以极小的计算量和参数代价提升了模型的检索能力的目的。


5 总结

通过对当前应用于图像检索领域的局部特征提取模型进行分析,发现存在一定的优化潜力,本文通过引入多种注意力机制相结合的思想,提取出更具有语义化的特征,提升模型在图像检索任务的表达效果。


参考文献:

  1. 胡胜达. 基于内容的图像检索技术研究[D]. 北方工业大学, 2019.

  2. Cai P , Jianfeng Y E . CBIR Method Based on Improved CNN and Bilinear Model. Computer Engineering and Applications, 2019.

  3. Noh H , Araujo A , Sim J , et al. Large-Scale Image Retrieval with Attentive Deep Local Features[C]// 2017 IEEE International Conference on Computer Vision (ICCV). IEEE, 2017.

  4. Noh H , Araujo A , Sim J , et al. Image Retrieval with Deep Local Features and Attention-based Keypoints. 2016.

  5. Vinay A , Garg H , Anand A , et al. Aggregation of Deep Local Features using VLAD and Classification using R2 Forest - ScienceDirect[J]. Procedia Computer Science, 2018, 143:998-1006.

高云龙(1996) 男 汉族 安徽省宿州市 研究生 研究方向:机器学习 武汉轻工大学 430048

阚港辉,男 安徽省宿州市人,研究生 研究方向人工智能,上海工程技术大学,邮编201620

柴文强 1996 .02 汉族 安徽省临泉县 研究生 研究方向 密码学和区块链 西安工程大学 236400