当前位置:
文档之家› 基于决策树分类技术的遥感影像分类方法研究_申文明
基于决策树分类技术的遥感影像分类方法研究_申文明
采用的辅助数据包括国家基础地理信息中心提 供的 1∶ 25万基础地理数据和 DEM 数据 ,国家环保 总局中东部生态环境调查成果数据库中的 2000年
第 3期 申文明等: 基于决策树分类技术的遥感影像分类方法研究 33 5
土 地利用数据以及 SPO T V EGET A T ION 2002全 年 10 d平均 N DV I数。利用 1∶ 25万 DEM 数据计算 研 究 区 的 坡 度 数 据、 坡 向 数 据 和地 形 因 子 数 据 ( posi tio n i ndex ) ,这些 DEM衍生数据将和 DEM 数 据一起作为分类的辅助数据 ,以提高分类精度。
决策树分类作为一种基于空间数据挖掘和知识 发现 ( Spatial Dat a Mi ning and Know ledge Di scov ery , SDM& KD)的监督分类方法 ,突破了以往分类 树或分类规则的构建要利用分类者的生态学和遥感 知识先验确定、其结果往往与其经验和专业知识水 平密切相关的问题 ,而是通过决策树学习过程得到 分类规则并进行分类 ,分类样本属于严格“非参” ,不 需要满足正态分布 ,可以充分利用 GIS数据库中的
决策树方法主要是决策树学习和决策树分类两 个过程。 决策树学习过程是通过对训练样本进行归 纳学习 ( Inductive lear ni ng ) ,生成以决策树形式表 示 的分 类 规则 的 机器 学 习 ( Machine learni ng ) 过 程 。 [12 ] 决策树学习的实质是从一组无次序、无规则 的事例中推理出决策树表示形式的分类规则。 决策 树学习算法的输入是由属性和属性值表示的训练样 本集 ,输出是一棵决策树 (也可以扩展为其它的表示 形式 ,如规则集等 )。 决策树的生成通常采用自顶向 下的递归方式 ,通过某种方法选择最优的属性作为 树的结点 ,在结点上进行属性值的比较并根据各训 练样本对应的不同属性值判断从该结点向下的分 支 ,在每个分支子集中重复建立下层结点和分支 ,并 在一定条件下停止树的生长 ,在决策树的叶结点得 到结论 ,形成决策树。通过对训练样本进行决策树学 习生成决策树 ,决策树可以根据属性的取值对一个 未知样本集进行分类 ,就是决策树分类 [10, 13]。图 1表
( 1. 中国科学院地理科学与资源研究所 ,北京 100101; 2. 中国科学院研究生院 ,北京 100049; 3. 中国环境监测总站 ,北京 100029)
摘要: 以河北唐山为研究区 ,应用 Landsa t E TM+ 影像数据和 GIS数据 ,对决策树分类技术和传统 计算机自动分类方法进行了比较。研究表明: 决策树与传统自动分类方法相比 ,分类精度提高了 18. 29% , Kappa系数提高 0. 1878。在地形起伏的山区 ,应用 DEM 及其衍生数据等 GIS数据作为辅助数 据可以提高分类精度 19. 52% , Ka ppa 系数提高 0. 281; 反射率影像分类效果比原始 DN 值影像的分 类效果好 ,分类精度提高 15. 86% ;缨帽变换在压缩数据量的同时 ,分类精度有所降低。 关 键 词: 遥感影像 ; 决策树 ; 计算机自动分类 ; 空间数据挖掘 ;土地利用 /土地覆盖 中图分类号: T P 751 文献标识码: A 文章编号: 1004-0323( 2007) 03-0333-06
收稿日期: 2006-06-13; 修订日期: 2007-04-06
基金项目: 科技部十五攻关项目资助 ( 2003B A614A -06-04)。 作者简介: 申文明 ( 1976- ) ,男 ,工程师 ,博士研究生 ,研究方向为环境遥感。
3 34 遥 感 技 术 与 应 用 第 22卷
其中: PI为地形因子值 , E 为 7× 7窗口内的像元高 程值 , Emin和 Emax分别为 7× 7窗口内的像元最大最 小高程值。
3. 3 分类体系 以检验分类技术和方法对比为目的 ,参照土地
资源遥感调查中土地利用的分类方式 ,针对试验区 的特点 ,确定土地覆盖 /土地利用的类别为: 水体 ,城 市 /居民点 ,林地 ,耕地 ,草地。 3. 4 决策树工具及分类参数
本文采 用的决 策树生成 工具是 由美国
Rulequest公司开发的基于 C5. 0算法的软件工具包 SEE5 1. 9(试用版 ) ,同时利用美国国家地质调查局 ( USGS)开发的应用于遥感图像处理软件 ERDAS 的决策树插件 ,实现与 SEE5 1. 9的数据交换与接口 功能。
图 2 基于决策树分类的土地生态分类技术流程 Fig. 2 Technological scheme of landuse /landcover
专家系统中 ,而且对于大数据量的遥感影像处理更 有优势。
( 4) 决策树方法能够有效地抑制训练样本噪音 和解决属性缺失问题 [11 ] ,因此可以解决由于训练样 本存在噪声 (可能由传感器噪声、漏扫描、信号混合、 各种预处理误差等原因造成 )使得分类精度降低的 问题。
2 决策树算法
决策树 ( Deci sion t ree)是通过对训练样本进行 归纳学习生成决策树或决策规则 ,然后使用决策树 或决策规则对新数据进行分类的一种数学方法。 决 策 树 是 一 个 树 型 结 构 , 它 由 一 个 根 结 点 ( Root node)、一系列内部结 点 ( Int ernal nodes) 及叶结点 ( Leaf nodes)组成 ,每一结点只有一个父结点和两 个或多个子结点 ,结点间通过分支相连。决策树的每 个内部结点对应一个非类别属性或属性的集合 (也 称为测试属性 ) ,每条边对应该属性的每个可能值。 决策树的叶结点对应一个类别属性值 ,不同的叶结 点可以对应相同的类别属性值。 决策树除了以树的 形 式表示外 ,还可以表示为一组 IF-T HEN 形式的 产生式规则。 决策树中每条由根到叶的路径对应着 一条规则 ,规则的条件是这条路径上所有结点属性 值的舍取 ,规则的结论是这条路径上叶结点的类别 属性。与决策树相比 ,规则更简洁、更便于人们理解、 使用和修改 ,可以构成专家系统的基础。因此在实际 应用中更多的是使用规则。
classif ication based on the decision-tree
Qui nla n( 1996)利用非遥感数据对 Boosting 技
3. 5 分类技术流程 对监督分类而言 ,训练样本的选取对分类精度
是至关重要的。 由于本文的研究工作主要是进行遥 感影像分类方法上的探索 ,训练样本和测试样本的 精度直接关系到对不同方法和参数进行比较研究的 结果 ,因此本文采用非监督分类、分层随机采样和人 工解译相结合的方法选取用于决策树学习的训练样 本和评估分类精度的测试样本 ,以获得较高精度的 样本 数 据 。我 们 参 考 了 同 时 相 的 SPO T全 色 和
采用 La ndsat E TM+ 遥感影像作为影像数据源 ( 12232) ,影像获取日期: 2001年 9月 17日。 按照美 国 Landsa t ET M+ 影像数据处理流程 [20 ]对该影像 进行了反射率还原 ,在接下来的分类试验中比较了 反射率还原影像与原始 DN 值影像的分类结果 ; 然 后对原始影像和反射率还原影像进行几何校正 ,校 正精度为 0. 5个像元 ; 然后利用 subset 命令对影像 进 行裁 剪 ,获得 实验区影 像 ,像元 大小为 2 000× 2 000。
第 22卷 第 3期 2007年 6月
遥 感 技 术 与 应 用
R EM O T E S EN SIN G TEC HN O LO G Y A N D A PPLICA TIO N
Vol. 22 No. 3 J un. 2007
基于决策树分类技术的遥感影像分类方法研究
申文明 1, 2, 3 , 王文杰 3 , 罗海江 引 言
随着计算机技术和遥感技术的发展 ,计算机自 动分类已经成为遥感影像信息提取和分类的主要手 段。传统的基于数理统计的分类算法 ,特别是最大似 然法在遥感影像分类中得到了广泛应用。 最大似然 法对于正态分布的数据 ,易于建立判别函数 ,有较好 的统计特性 ,可以充分利用人机交互 ; 但其分类结果 因 遥感图像本身的空间分辨率以及“同物异谱”和 “异物同谱”现象的大量存在 ,出现较多的错分、漏分 情况 ,导致分类精度降低 [ 1]。目前已经出现了多种新 型分类方法 ,如神经网络分类法、模糊分类法、专家 系统分类法、支撑向量机分类 法、面向对象分类法 等。 但这些方法或者算法过于复杂、难以理解 ,或者 对分类者有较高的遥感和地学知识要求 ,都未能在 更大领域得到推广和应用。
示了决策树学习和分类的基本过程与框架 [ 14]。
图 1 决策树学习与分类的过程 Fig. 1 Process of traing and classif icat ion of decision-tree
基于 ID3算法发展起来的 C4. 5 / C5. 0算法是当 今最流行的决策树算法 ,不仅可以将决策树转换为 等价的产生式规则 ,解决了连续取值的数据的学习 问题 , 而且可 以分类 多个类别 , 增加 了 BOO ST 技 术 ,可以更快的处理大数据库。 C5. 0算法要求输入 数据的每一个元组由若干个条件属性和一个类别值 属性组成 ,条件属性值可以是离散值或连续值 ,类别 必须是离散值。 限于篇幅 ,在此不对此作详细介绍 , 详细内容可以参考 Q ui nlan[ 11, 15~ 17]、史忠植 [18 ]和张 云涛 [19 ]的相关文献。
决策树技术应用于遥感影像的土地利用 /土地 覆盖分类过程有如下优点:
( 1) 决策树方法不需要假设先验概率分布 , 这 种非参数化的特点使其具有更好的灵活 性和鲁棒
性 ,因此 ,当遥感影像数据特征的空间分布很复杂 , 或者多源数据各维具有不同的统计分布和尺度时 , 用决策树分类法能获得理想的分类结果 [2, 10 ]。
地学知识辅助分类 ,大大提高了分类精度 [2, 3 ]。 目前 决策树分类方法已经开始应用于各种遥感影像信息 提取 和 土 地利 用 /土 地 覆盖 分 类 中 [4~ 8 ]。 在 美 国 USGS、 EPA等部门联合实施的“美国土地覆盖数据 库”计划 ( NL CD 2001)中 ,决策树分类技 术不仅被 应用于土地分类 ,而且应用于城市密度信息提取和 林 冠密度信息提取 ,土地利用分类精度达到了 73% ~ 77% ,城市密度信息提取精度达到 83% ~ 91% ,树 冠精度在 78% ~ 93% ; 制图效率较旧的方法提高了 50% [9 ] ,完全能够满足大规模土地分类数据产品的 生产要求。