基于神经网络的图像分割研究

(整期优先)网络出版时间:2022-09-22
/ 1

基于神经网络的图像分割研究

陈湘,郝宇欣,陈志亮,赵海东

北方自动控制技术研究所 030006

摘要着科学技术的发展,人工智能已经被广泛应用到生活中,计算机视觉作为其中的重要领域,也被研究者逐渐重视。本文重点讲述了卷积神经网络以及图像分割的发展史,重点讲述了目前具有代表的deeplab神经网络架构中的特点,分析其中的原理,对后续的研究具有借鉴作用。

关键词:计算机视觉,图像分割,Deeplab

1神经网络的发展

随着科学技术的发展,1998年提出了lenet网络,被称为是卷积神经网络的鼻祖,lennet一共包含七层,并且首次将卷积、下采样、非线性映射等进行组合,奠定了目前深层卷积网络的基础。下图为lenet的框架结构图。随着硬件条件GPU的出现,卷积神经网络便得到了快速的发展。AlexNet以及ZFNet随之便相继出现。直到2015年,何凯明提出的resnet,其检测效果第一次超过人眼,具有开创性的意义,该网络引入了残差模型,解决了深层网络在训练过程中出现的网络退化现象,是卷积神经网络中极具代表性的模型之一。在此基础上卷积神经网络便进入了高速发展的时代。

2图像分割

图像分割作为计算计领域的相对重要的研究方向,一直广受研究者的关注。传统的图像分割算法主要有基于图论的方法、基于聚类的方法。随着卷积神经网络的发展,基于深度学习的语义分割算法逐渐受到人们的重视。

FCN是第一次成功使用深度学习对图像做语义分割的公开方法。之前的CNN网络由于存储开销大、计算效率低大、像素块的大小对感受野区域的大小进行了限制等原因,FCN则是通过将CNN中的全连接层转换为卷积层从像素特征中恢复出每个像素的类别,将对图像级别的分类上升到像素级别。随后便相继出现了U-NETRefineNet等算法。下图为CNN到全卷积网络转化的模型框架图。

图1 CNN转化为全卷积

3DeepLab神经网络

传统的语义分割法对图像进行分割会造成以下两点的问题:1.图像的分辨率降低,通过不断地池化以及下采样对图像的分辨率进行压缩,进而增大感受野,随后又通过反卷积等进行上采样,但是上采样得到的图像分辨率,仍然无法恢复原有的分辨率。2.对于空间变换的不变性,网络模型丢失了许多的细节。对于这两个问题Deeplab分别提出了空洞卷积和条件随机场进行解决。

3.1空洞卷积

空洞卷积是指rate大于1的卷积核对其进行卷积,输入的信号被空洞卷积进行交叉采样。通过空洞卷积使卷积核滤波器的视野进一步扩大。图4为空洞卷积的展示图。

图2 标准卷积和空洞卷积

Deeplab还引入了一个空洞卷积池化,在空间金字塔池化的基础上做出改进,将给定的输入用不同采样率的空洞卷积进行采样,达到了以多个比例捕捉上下文的效果,如下图所示。

图3 空洞金字塔池化的效果展示图

3.2条件随机场

Deeplab提出将DCNN与全连接CRF进行组合,前者用于像素的分类和对像素的大概边界进行确定,后者用于恢复精确的物体像素边界。

4总结

本文通过对语义分割具有代表性的算法进行介绍,明白了其中的特点,通过空洞金字塔池化和随机场方法解决了分辨率低和精度低的问题。

5参考文献

[1] Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik. Rich feature hierarchies for accurate object detection and semantic segmentation[C].In CVPR,2014.

[2] Ross Girshick.Fast Region-based Convolutional Networks for object detection[C]. in PAMI,2016.

[3] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition[C]. In ECCV, 2014.

[4] Shaoqing Ren,Kaiming He,Ross Girshick,Jian Sun.Towards Real-Time ObjectDetection with Region Proposal Networks[C].in NIPS,2015.

1