北方自动控制技术研究所 030006
摘要:随着科学技术的发展,人工智能已经被广泛应用到生活中,计算机视觉作为其中的重要领域,也被研究者逐渐重视。本文重点讲述了卷积神经网络以及图像分割的发展史,重点讲述了目前具有代表的deeplab神经网络架构中的特点,分析其中的原理,对后续的研究具有借鉴作用。
关键词:计算机视觉,图像分割,Deeplab
1神经网络的发展
随着科学技术的发展,1998年提出了lenet网络,被称为是卷积神经网络的鼻祖,lennet一共包含七层,并且首次将卷积、下采样、非线性映射等进行组合,奠定了目前深层卷积网络的基础。下图为lenet的框架结构图。随着硬件条件GPU的出现,卷积神经网络便得到了快速的发展。AlexNet以及ZFNet随之便相继出现。直到2015年,何凯明提出的resnet,其检测效果第一次超过人眼,具有开创性的意义,该网络引入了残差模型,解决了深层网络在训练过程中出现的网络退化现象,是卷积神经网络中极具代表性的模型之一。在此基础上卷积神经网络便进入了高速发展的时代。
2图像分割
图像分割作为计算计领域的相对重要的研究方向,一直广受研究者的关注。传统的图像分割算法主要有基于图论的方法、基于聚类的方法。随着卷积神经网络的发展,基于深度学习的语义分割算法逐渐受到人们的重视。
FCN是第一次成功使用深度学习对图像做语义分割的公开方法。之前的CNN网络由于存储开销大、计算效率低大、像素块的大小对感受野区域的大小进行了限制等原因,FCN则是通过将CNN中的全连接层转换为卷积层从像素特征中恢复出每个像素的类别,将对图像级别的分类上升到像素级别。随后便相继出现了U-NET、RefineNet等算法。下图为CNN到全卷积网络转化的模型框架图。
图1 CNN转化为全卷积
3DeepLab神经网络
传统的语义分割法对图像进行分割会造成以下两点的问题:1.图像的分辨率降低,通过不断地池化以及下采样对图像的分辨率进行压缩,进而增大感受野,随后又通过反卷积等进行上采样,但是上采样得到的图像分辨率,仍然无法恢复原有的分辨率。2.对于空间变换的不变性,网络模型丢失了许多的细节。对于这两个问题Deeplab分别提出了空洞卷积和条件随机场进行解决。
3.1空洞卷积
空洞卷积是指rate大于1的卷积核对其进行卷积,输入的信号被空洞卷积进行交叉采样。通过空洞卷积使卷积核滤波器的视野进一步扩大。图4为空洞卷积的展示图。
图2 标准卷积和空洞卷积
Deeplab还引入了一个空洞卷积池化,在空间金字塔池化的基础上做出改进,将给定的输入用不同采样率的空洞卷积进行采样,达到了以多个比例捕捉上下文的效果,如下图所示。
图3 空洞金字塔池化的效果展示图
3.2条件随机场
Deeplab提出将DCNN与全连接CRF进行组合,前者用于像素的分类和对像素的大概边界进行确定,后者用于恢复精确的物体像素边界。
4总结
本文通过对语义分割具有代表性的算法进行介绍,明白了其中的特点,通过空洞金字塔池化和随机场方法解决了分辨率低和精度低的问题。
5参考文献
[1] Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik. Rich feature hierarchies for accurate object detection and semantic segmentation[C].In CVPR,2014.
[2] Ross Girshick.Fast Region-based Convolutional Networks for object detection[C]. in PAMI,2016.
[3] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition[C]. In ECCV, 2014.
[4] Shaoqing Ren,Kaiming He,Ross Girshick,Jian Sun.Towards Real-Time ObjectDetection with Region Proposal Networks[C].in NIPS,2015.
1