基于随机森林算法的遥感影像水体提取方法

(整期优先)网络出版时间:2021-12-03
/ 2


基于随机森林算法的遥感影像水体提取方法

蒲永峰 1张宙 1姬霖 1尹彤 2 连恒 1

1.自然资源部第二地形测量队 陕西西安 710054;2.自然资源部测绘标准化研究所西安 710054

The water extraction in remote sensing images based on the Random Forest Algorithm

PU YongfengZHANG ZhouJI LinYIN TongLIAN Heng


摘要随机森林算法以其稳定性强、运行速度快等优点在遥感分类中广泛运用。为提高复杂地物环境下水体提取精度,引入随机森林算法,利用Landsat8 OLI多光谱遥感影像通过有放回的随机选择训练数据子集构建决策树,使得Gini指数最小的属性作为分裂节点的属性,通过绝对多数投票法获得最终分类结果。结果表明该方法能较准确的识别提取图像中的水体目标,在复杂背景、细小河流等不利条件下分类结果较为理想。

关键词:随机森林;水体提取;遥感影像

Keywords:random forest; water body extraction; remote sensing image

中图法分类号:P237

1引言

水是环境中最活跃的自然要素之一,是物质能量交换中不可或缺的一环[1],在交通运输、农业灌溉、水产养殖等方面发挥了重要的作用。准确提取水体分布信息在水资源开发利用、流域生态环境治理、防灾减灾等领域具有重要意义[2-3]

利用遥感图像提取水体信息具有现势性强、范围广、成本低等传统方式不可比拟的优点[4],许多专家学者对遥感影像提取水体方法进行了研究,孙永军等提出了一种基于改进的Canny算子边缘的方法提取ETM+遥感影像中的河流信息,取得了较好效果[5]。李飞等利用高分一号卫星遥感数据采用决策树法、单波段阈值法和归一化水体指数法提取水体信息,提取精度均达到95%以上[6]。但现有研究大多集中在地物类型简单、河流较宽的地区,复杂背景下河流提取以及细小河流提取的研究相对较少。近年来迅速发展的随机森林算法因其运算速度快、分类精度高、结果稳定性强等优点在遥感信息提取中广泛应用[7-8],以随机森林算法为理论基础提取水体信息,并将结果与传统提取方法进行比较,探索复杂背景下河流提取以及细小河流提取的新方法,为更加精准提取水体信息提供技术支撑。

2研究区概况和数据

选取水体分布较为密集的区域作为研究区,如图1所示,研究区内有渭河、灞河和泾河三条河流,以及多个湿地公园零散水体密布。泾河在遥感图上表现较为细小,容易发生错分漏分现象,研究区在城市周边,地物类型复杂,水体提取难度较大。

本研究使用Landsat8 陆地成像仪(Operational Land Imager,OLI)遥感影像数据,获取时间2021年5月30日,轨道号126/036,研究区上方无云遮挡,图像质量良好,研究区假彩色合成遥感影像如图1所示。Landsat8 OLI波谱谱范围涵盖了可见光、近红外,共有9个波段,波谱范围广,多光谱图像分辨率为30m。多光谱高分辨的优势使得Landsat8数据在地表信息提取中有很大的优势,广泛应用于农业、水文、生态环境等多个领域。

61a9da3731f8c_html_bb59d3d74d5668ef.jpg

图1研究区遥感图像(452波段组合)

Fig.1 Remote Sensing Image of The Study Area (Combination of bands 452)

3研究方法

3.1随机森林分类方法

随机森林作为高度灵活的一种机器学习算法一经提出便得到了广泛的应用,流程如图2所示,随机化使用输入样本的记录数据和特征向量生成决策树,通过集成学习的思想将多个决策树进行集成,对于一个输入样本,N棵决策树得到N个分类结果,集成所有分类投票结果后,将投票次数最多的类别指定为最终输出,是典型的引导聚类算法。

61a9da3731f8c_html_7a8932a5e3ea2015.gif

图2 随机森林分类算法流程

Fig.2Flowchart of Random Forest Classification

决策树是由根节点、中间节点和叶节点共同组成的树状结构,中间节点和根节点统又称作内部节点,内部节点选取集中最优的属性作为该节点的判别属性进行分裂,分裂后不同的取值建立下一层节点,直至得到分类结果停止分裂,停止分裂的节点就是决策树的叶节点,叶节点存放了决策树预测的分类结果。

决策树以基尼指数(GINI Index)或信息熵(Entropy)来表征分类结果不纯度,基尼指数的公式如式(1)所示:

61a9da3731f8c_html_b5743449859dad67.gif (1)

信息熵的计算公式如式(2)所示:

61a9da3731f8c_html_bbe02af455e3eee7.gif (2)

T为样本集合,N为样本类别数,pi表示i类在样本集合T中出现的频率。在建立决策树的过程中,分裂节点的属性即为使得Gini指数或信息熵最小的属性,在实际操作中两者衡量决策树不纯度结果相差不大,本文选用基尼指数作为决策树不纯度函数。

随机森林分类方法采用引导据计算法(Bootstrap aggregating,Bagging)选择训练样本,有放回的在样本训练集中随机选取新的训练集,在新的训练集中进行分类、回归等算法。

对于多个决策树的分类结果,随机森林分类方法采用绝对多数投票法来确定最终分类类别,绝对多数投票法需要有效票过半数,如公式(3)所示:

61a9da3731f8c_html_498e0d2ec1b0a726.gif (3)

T为分类器总数,N为总类别数,h取值为0或1,预测为j类则为0,反之为1。

3.2其他分类算法

最大似然法又称为贝叶斯(Bayes)分类法,是通过统计分类训练样本的均值、方差等参数值,确定各个类别的归属概率函数,将待分类像元分别带入各个分类函数,返回值最大的类别即为待分像元的类别。

支持向量机(Support Vector Machine,SVM)是一种基于统计学习理论的模式识别方法,其基本思想是在样本空间或特征空间构造出最优超平面,使得超平面与不同类样本集之间的距离最大,从而达到最大的泛化能力。

4分类结果分析

最大似然法、支持向量机、随机森林三种分类方法提取的水体分布结果如图3所示,最大似然法在提取渭河、灞河河面较宽的河流结果较好,对于细小河流——泾河的提取结果不理想,河流呈不连续状,如图3(a)所示,后续矢量化处理有一定的难度。支持向量机的方法在提取较宽的河流和细小河流上都取得了较好的结果,但水体提取误判较多,如图3(b)所示,存在大量非水体误分为水体的情况。随机森林分类方法提取的细小河流连续性好,能够较好地提取水体,且误分错分情况较少,分类结果优于最大似然法和支持向量机法。

61a9da3731f8c_html_a8a16c4675051eb6.jpg61a9da3731f8c_html_ec119ac29c406987.jpg61a9da3731f8c_html_b97ac883e87c8e37.jpg

图3水体信息提取结果

Fig.3 The Results of Water Extraction


5 结语

利用随机森林算法提取遥感影像水体,通过随机选择训练样本和决策树分裂特征,构建多个决策树构成随机森林,采用绝对多数投票法来确定最终分类类别,结果表明随机森林方法提取水体信息能够有效的抑制干扰信息,抗噪能力强且不容易产生过拟合现象,在细小河流水体和复杂环境背景下提取结果较好,为卫星遥感影像提取水体信息提供了一种有效的方法。但由于路桥等人工信息的影响,遥感影像提取的河流呈不连续状,在转成矢量数据等后续过程中,还需要进一步的研究和处理。

参考文献

[1]雷金睿,陈宗铸,陈小花,李苑菱,吴庭天.1980—2018年海南岛土地利用与生态系统服务价值时空变化[J].生态学报,2020,40(14):4760-4773

[2]姚仕明,雷文韬,渠庚,柴朝晖,栾华龙.基于遥感影像的鄱阳湖2020年汛期灾情分析[J].人民长江,2020,51(12):185-190

[3]王冬梅,陈琳,冯峰.面向对象的GF-2影像水体信息提取研究[J].人民黄河,2021,43(05):80-83+90

[4]管伟瑾,曹泊,王晓艳,马芬艳.河流信息提取方法比较[J].人民黄河,2017,39(02):51-55

[5]孙永军,陈德智,邱云峰.河流湿地遥感信息提取方法研究[J].国土资源遥感,2010(S1):14-17

[6]李飞,桑国庆,孙盈,曹方晶.基于高分一号卫星遥感数据的复杂水体信息提取方法研究[J/OL].济南大学学报(自然科学版),2021(06):1-8

[7]李哲,张沁雨,彭道黎.基于高分二号遥感影像的树种分类方法[J].遥感技术与应用,2019,34(05):970-982

[8]于新洋,赵庚星,常春艳,袁秀杰,王卓然.随机森林遥感信息提取研究进展及应用展望[J].遥感信息,2019,34(02):8-14

61a9da3731f8c_html_92fe488051e572d8.gif

收稿日期:

第一作者简介:蒲永峰,工程师,硕士,现主要从事智慧黄河研究。