当前位置:文档之家› 随机森林遥感信息提取研究进展及应用展望

随机森林遥感信息提取研究进展及应用展望

Vol. 34,No. 2

Apr. ,2019第

34卷第

2期

2019年

4月遥感信息

Remote Sensing Information

随机森林遥感信息提取研究进展及应用展望

于新洋2 ,赵庚星

1,2 ,常春艳2 ,袁秀杰

1

,2 ,王卓然

1

,2

(1. 土肥资源高效利用国家工程实验室,山东泰安

271028,2.山东农业大学资源与环境学院,山东泰安

271028)

摘要:针对国内外随机森林集成分类方法的相关成果及发展趋势尚未有研究进行梳理与展望这一问题,首

先,系统介绍随机森林分类方法的基本原理及应用优势、重要参数及其具体设定;其次,综述该方法在多光谱影

像、高光谱数据、雷达及激光测距仪等多源遥感数据信息提取领域以及分类参量遴选中的研究应用;最后,在分类

精度检验、可移植性以及算法改进等方面对其发展及应用趋势进行了展望。该研究可为随机森林分类方法初学

者提供参考,有助于随机森林分类方法在遥感信息提取领域的推广及应用。

关键词:随机森林;分类方法;研究进展;信息提取;展望

doi-10. 3969/j. issn. 1000-3177. 2019. 02. 002

中图分类号:

TP79 文献标志码: 文章编号

:1000-3177(2019)162-0008-07

Random Forest Classifier in Remote Sensing Information Extraction:

A Review of Applications and Future Development

YU Xinyang1'2 ,ZHAO Gengxing1'2,CHANG Chunyan1'2 .YUAN Xiujie1'2 ,WANG Zhuoran1'2

(1. National Engineering laboratory for Efficient Utilization of Soil and

Fertilizer Resources , Tai? an, Shandong 271018, C/izna

2. College of Resources and Environment, Taiwan, Shandong 271018 ,CAina)

Abstract: The random forest classifier (RFC) is an ensemble method that produces multiple decision trees, using a randomly

selected subset of training samples and feature variables. The classifier has become popular in remote sensing studies due to its

classification accuracy,while no literature review has been done to cover its application in remote sensing

・ The objective of this

study is to review the utilization of RFC in remote sensing, and the application of RFC in the classification of multi-sensor

images and relevant data selection. Further investigations are recommended into less commonly exploited use of this classifier,

such as outliers detecting in training samples and novel approaches improving.

Key words: random forest

; classification method

; review

; information extraction

; development trend

0引言

遥感分类作为遥感技术应用最重要的组成部

分,研究方法日渐多样。典型的遥感监督分类法如

分类回 归树

(classification and regression tree,

CART)m幻、支持向量机

(support vector machine,

SVM)[3_4]及人工神经网络(

artificial neural network, ANN)&6]算法目前应用较多。然而,随着土地利用

范围及程度的不断拓展深化以及区域资源环境变

化,陆表土地利用已趋于类型复杂化、格局破碎化,

“物谱两异”现象普遍存在⑺,单分类器已难以满足

更高的分类精度需求⑷。

随机森林分类器(

random forest classifier,

RFC)页自

2001年提出伊始便以处理流程稳健高效

收稿日期

:2017-10-19 修订日期

:2017-12-26

基金项目:"十二五”国家科技支撑计划

(2015BAD23B0202)

;中国科学院陆地表层格局与模拟重点实验室开放基金

(LBKF201802);山

东省双一流建设项目

(SYL2017XTTD02) s山东省博士后创新基金

(222016)

;山东农业大学博士后基金

(010-76562)。

作者简介:于新洋

(1986-),男,博士,讲师,主要研究方向为农业遥感监测。

E-mail: xyyu@ yic. ac. cn

通信作者:赵庚星

(1964-),男,博士,教授,主要研究方向为遥感技术及应用。

E-mail: zhaogx@ sdau. edu. cn

8引用格式:于新洋,赵庚星,常春艳,等.随机森林遥感信息提取研究进展及应用展望

[J].遥感信息

,2019,34(2):8-14

等优势引起遥感领域的关注,相关研究逐渐增

多“闵。

RFC可在缩短处理时间购的前提下有效

应对变量数量远多于训练样本量引发的“维度诅咒”

现象〔⑷。目前已有较多利用

RFC用于遥感领域的

相关研究匸⑸,但尚未见其应用及发展趋势的系统综

述。本研究在对遥感集成分类器简要概述、探讨

RFC基本原理的基础上,综述

RFC的研究应用现

状与发展展望,旨在对

RFC已有研究进行梳理,总

结其在遥感中的应用成果,并讨论其主要发展方向,

为相关研究应用提供参考。

1随机森林分类器

为克服单分类器无法应对复杂土地利用覆被现

状的问题,集成分类器的概念进入遥感领域口‘卯。

集成分类器可以是单分类器的组合,也可以是基于

引导聚集算法

(bootstrap aggregating, Bagging)皿11 或

提升算法

(Boosting) 2旳方法训练生成的分类器。

二者的不同在于

Bagging选取训练样本集的随机子

集对每个分类器进行训练;

Boosting则使用样本集

中的全部样本进行迭代训练,并在此过程中增加错

误分类样本的权重。已有研究发现使用此

2种方法

均比单分类器分类准确性更高⑵〕。亦有研究提出

Boosting可以减少分类偏差匚⑶,比

Bagging结果准

确性更高匚如。然而

.Boosting方法需要进行大量迭

代计算,训练样本量不足时易出现过度拟合,且其对

训练样本异常值极为敏感匸屈。

Bagging在减少分类

差异的情况下对分类结果影响极小⑵」,为主流集成

分类器所采用。

作为数据驱动的非参数分类方法,

RFC使用

CART集群进行预测分类⑷。其利用自助抽样技

术通过有放回地抽取训练样本集的一部分

(Bagging)创建回归树集群,通过投票方式得到最终

分类结果。约三分之二的训练样本(袋内样本)会用

于训练回归树(图

1),剩余三分之一样本(袋外样

本)用于内部验证,以估计

RFC分类结果的误

差口勺,称袋外

(out o£ bag, OOB)误差。随机森林中

的每棵决策树都是独立生长的,无需任何修剪,在每

个节点使用随机选择的用户定义特征变量参数

(MJ进行分叉。通过将森林扩大到用户定义的决

策树棵数

(NQ ,该算法会创建出具有高方差及低

偏差的决策树集群⑷。在分类阶段,当新的待分类

数据输入时,所有集成决策树会对其所属类的分配概

率进行估算,通过每棵树的投票结果决定其归属

(图

1)。目前

RFC已集成于多个软件,如

eCognition、

imageRFID、

R 以及

Matlab 等。二

段一

图1随机森林分类流程图

为保证随机森林的生成,需设置两个关键参数:

决策树的棵数

(N“Q和完成分类所需的变量参数

(Mg"】。由于

RFC计算效率高且不会过度拟合,

Ng。的取值可以大一些阿。已有研究多将

Ng,值

设置为

500,因为有研究提出在达到这种数量的分

类树之前,分类误差便已趋于稳定[旳。

R语言包中

RFC处理程序

“randomForest”中

N咲默认值也为

500悶。另有研究探索了 心其他取值如

5 00033幻、

1 000

:33-34

:、

200閃或

100

:27],均发现

RFC决策树棵

数对分类结果没有影响总体而言,基于

RFC

处理遥感数据

N论取值

500是可行的。另一个重要

参数

Mg取值的研究则结论各异,目前通常设置为

输入变量数量的平方根的倍数[⑷。此外,有研究认

为取值为

1即可获得较好的精度[旳。另有学者发

现随着取值的增大,预测结果精度会更高⑶打

Ghosh等[⑷尝试将设置为输入变量的总数,考

虑到

RFC须计算所有分叉节点变量的信息增益,这

就增加了模型的运算时间。

2随机森林的遥感应用

2.1多光谱影像

目前

RFC已成功用于多光谱影像的土地利用

分类⑶如、城市信息提取[如、病虫害监测[⑵及植被

生物量计算[⑷等多个方面。在土地利用分类方面,

如田绍鸿、张显峰基于天绘一号卫星多光谱数据及

RFC对新疆北屯市及周边区域的土地覆盖进行了

分类研究[⑷;刘毅、杜培军等基于RFC对环境一号

小卫星和北京一号小卫星数据进行了分类,发现结

果较最大似然法和

SVM分类结果有更好的稳定性

9

相关主题