当前位置:文档之家› 非线性系统辨识模型选择方法综述

非线性系统辨识模型选择方法综述

文献2:Model selection approaches for non-linear system identification: a review

X. Hong, R.J. Mitchell, S. Chen, C.J. Harris, K. Li and G.W. Irwin. International Journal of Systems Science,

2008,39(10): 925–946

非线性系统辨识模型选择方法综述

摘要:近20年来基于有限观测数据集的非线性系统辨识方法的研究比较成熟。由于可利用现有线性学习算法,同时满足收敛条件,目前深入研究和广泛使用的非线性系统辨识方法是一类具有万能逼近能力的参数线性化非线性模型辨识(linear-in-the-parameters nonlinear model identification )。本文综述了参数线性化的非线性模型选择方法。非线性系统辨识最基本问题是从观测数据中识别具有最好模型泛化性能的最小模型。综述了各种非线性系统辨识算法中实现良好模型泛化性的一些重要概念,包括贝叶斯参数正规化,基于交叉验证和实验设计的模型选择准则。机器学习的一个显著进步,被认为是确定的结构风险最小化原则为基础的内核模式,即支持向量机的发展。基于凸优化建模算法,包括支持向量回归算法,输入选择算法和在线系统辨识算法。

1 引言

控制工程学科的系统辨识,是指从测量数据建立系统/过程动态特性的数学描述,以便准确预测输入未来行为。系统辨识2个重要子问题:(1)确定描述系统输入和输出变量之间函数关系的模型结构;(2)估计选定或衍生模型结构范围内模型参数。最初自然的想法是使用输入输出观测值线性差分方程。早期研究集中在线性时不变系统,近期线性辨识研究考虑连续系统辨识、子空间辨识、变量误差法(errors-in-the-variable methods)。

模型质量重要测度是未知过程逼近的拟合精度。由于大多数系统在某种程度上说都是非线性的,非线性模型通常要求满足合格的建模性能。定义非线性离散系统输入)(tu,输出)(ty,训练数据集合ND=Nttytu1)(),(,基本目标是找到

)()),(()(tetXfty (1)

)(f未知,相关参数向量,噪声)(te,通常假设方差(2)恒定,满足独立的同分布(i.i.d.)特性。模型输入TeuyntetentutuntytytX)(),1(),(),1(),(),1()(。yn,un,en分别为输出、输入和噪声的延迟。方程式(1)是NARMAX模型表达式,代表一大类非线性系统。

由于大多数工业过程满足光滑连续特性,非线性函数)(f辨识等价于函数逼近,即用fˆ代替f函数。为了逼近函数,用户选择各种非线性建模方法[1],如分段线性模型、有理多项式模型、Hammerstein/Wiener模型、投影寻踪回归(PPR)和多项式自适应回归样条(MARS)、周期神经网络。逼近论中,一种通用函数表示方法是非线性基函数的线性组合。具有参数线性化结构、表示非线性输入输出关系模型表达式

miiitXtXf1))(()),((ˆ (2)

))((tXi为已知非线性基函数映射,例如RBF或者B样条函数,i未知参数,m模型中基函数个数。参数线性化模型具有适合自适应学习的良好结构,具有可证明的学习和收敛条件,具备并行处理能力,明确的工程应用[2]。然而,非线性系统辨识中仍然存在一些重大挑战和障碍:

(1)模型的泛化性

采用有限数据辨识模型,不仅要求模型训练精度较好,同样要求模型测试精度良好。由于)(f未知,

选用)(ty作为训练模型)(ˆtf的逼近目标。随着模型复杂程度的增加,逼近目标)(ty的建模精度增加。其结果是,如果过分追求模型精度,发生)(ty中噪声过拟合现象。如何界定和获取模型的泛化能力对所有机器学习来说都是至关重要的。

(2)模型的解释性

模型经常用来解释它代表的过程属性,并提取系统潜在知识。线性系统许多好的属性并不适用于非线性模型。比如,时域和频域之间模型描述的可交换性。线性模型的参数通常与系统的物理特性相关。由于非线性本质和高阶模型复杂性,非线性模型很难解释系统的结构特性,除非建模者在建模过程中具有先验知识。

(3)维数灾难

参数个数过多与模型数据集有关。构建模型过程中,模型参数的数量与数据集的规模相比很容易过剩。一个过多参数的模型是病态的,参数无法精确估计,导致模型泛化能力较差。线性模型为保证张成输入空间的回归矩阵非奇异特性,PE通常由输入信号设计获得。非线性模型为保证回归矩阵非奇异特性,需要设计输入信号和回归矩阵。

(4)计算复杂性

数据维数过高是计算复杂性过高的根源。非线性系统辨识的本质是一个棘手的问题。对于实际应用而言,希望采用高效的非线性系统识别算法。算法设计要求集成系统理论、统计、优化理论、智能学习和线性代数的新型计算工程。

(5)输入选择

许多非线性模型随着输入维数(x)的增加,模型的大小以指数速度成倍增加。输入项过多,通过输入设定不正确或或过参数化,引起模型性能恶化。对于实际系统输出,如果模型中存在一些输入变量,另一些输入变量可能是冗余的或变得不重要了。输入选择作为预处理步骤,大大改善系统性能和模型可解释性。然而,最优输入选择通常是一个棘手问题,有效输入选择算法通常是许多模式识别领域重要因素。

(6)鲁棒性和噪声抑制

线性辨识方法的鲁棒性和噪声抑制技术很成熟。传统线性辨识方法假设系统线性时不变,通常具有高斯噪声。然而,大多数实际动态系统是复杂的,非线性、非稳态、随机和部分未知。传统学习算法在应用到实际系统时,通常具有局限性。为了改善模型鲁棒性和噪声抑制性能,有必要研究非线性、非高斯过程辨识方法。

(7)在线非线性系统辨识

在许多应用中,当数据样本连续可用时,模型用于实时操作。在线系统辨识算法计算优势在于模型在新样本到来时不断更新,而不是从零开始重学。在线学习概念在智能系统系统是一个重要概念,因为人类自然学习方式是基于先验知识逐步建立后验知识。线性迭代辨识算法更新的是固定模型结构的模型参数,在需要更新模型结构时可能存在一定局限性。基于变结构和具有高效计算能力的稀疏模型的在线估计算法是当前重要研究领域。

2 模型的泛化性

2.1 参数正则化(Parameter regularisation)

模型泛化性定义:对新输入数据,模型逼近真实系统输出的能力。参数正则化技术是一个改善模型泛化能力的主要工具。模型参数估计对模型泛化能力的影响可以通过一个参数估计器的MSE(均方误差)来分析。它可以作为模型泛化能力的测量。一种改善模型泛化能力的方法是偏差和方差折中。

ˆˆTE=2ˆˆbiasVar (3)

miiLSTLSE121ˆˆ0min21maxm (4)

由于常规最小二乘方法估计参数MSE存在病态条件,min很小时导致参数LSˆ的MSE很大。

TTRyyJ yTTR1ˆ (5)

为正则参数。正则化或岭回归是简单有效的获取偏差/方差折中的方法。正则化参数估计器等效于贝叶斯方法中参数的最大后验概率密度函数MAP(maximum a posteriori pdf)。该方法的一个潜在问题是优化过程中如何确定正则参数。

非线性系统辨识一个非常有前景的方法是最小二乘支持向量机LSSVM(least squares support vector

machine)3,核特征空间范数参数正则化的应用。

系统辨识简化为一个优化问题。运用不同目标函数,在模型适配和结构/参数约束之间权衡折中,产生不同的模型。模型选择准则,用于判别不同模型之间的泛化能力。

2.2 模型选择准则

2.2.1 基于交叉验证的模型选择准则

统计学习和非线性系统辨识中,模型泛化能力的信息理论测度至关重要。评价模型泛化能力的基本概念之一是交叉验证。模型选择准则用作模型对未来数据的预报性能或者与其它有竞争力的模型相比评估模型质量。假设(2)式系统模型,参数为Tm]ˆ,,ˆ,ˆ[ˆ21,令2ˆ为2的估计。则数据集的均方误差估计为:211]ˆ)(()([)ˆ(NtimiitxtySSE。不同的模型选择标准如下:

2ˆ()2ˆpSSECmN

mNmNNSSEFPE)ˆ(

mNSSENAIC2)ˆ(log

NmPRESS21ˆ2

为了说明如何获得这些模型选择准则,考虑一种最常用的交叉验证法——留一验证法。其主要思路为对于任何一个预测器,数据集DN中的每一个数据点轮流被选出,用其余的N-1个数据点估计模型,计算选出点的预测误差。方便起见,)(ˆ)(iy用来表示模型(1)中输入量)(ix的输出,用留一法估计数据集)}(),({\iyixDN,)(ˆ)(iy的误差如下:)(ˆ)()()()(iyiyi.留一验证法的均方差为])([2)(iE,用来度量模型的泛化能力。留一误差可以用最小方差估计线性参数化模型(2)来计算。定义模型残差序列为

jmjjixiyiˆ)(()()(1)(,NiiiiiTT,,1)]([])[(1)()(1)(

其中)(i是向量中的行向量。同样,经过参数正则化后,有

NiiiiiTT,,1)]([])[(1)()(1)(

将上式中的所有采样数据用它们的均值代替,则为PRESS统计:

2212()2ˆ1(1[]/)NiimPRESSNtrNNH

其中TT1][H,NiiN122)()/1(ˆ。令TT1][)H(,GVC如下:

212()()(1[H]/)NiiGCVNtrN()

GVC可以通过寻找来进行优化。

应用模型选择准则对模型参数个数的阶跃增加的灵敏度揭示模型选择准则的差异,特别是对小型数据集合和低维模型。尽管模型性选择准则之间存在差异,上述的模型选择准则共同的特征是在通常条件下是等价渐进的(Nishii 1984),并且同时具有估计数据适配程度与模型复杂性之间平衡。因此,信息理论度量与最小可能模型的简约建模基本原理一致。

一个更复杂的观点是偏差/方差矛盾,基于有限数据建立真实系统/过程动态时,简单模型泛化较好。偏差和方差的矛盾在于模型的泛化误差分为两部分:偏差和方差。逼近能力较高的模型方差较高,对估计数据集合适配性好,但是对新数据集合的泛化性差。偏差指的是模型任何灵活的约束。逼近能力较差的模型,偏差较高。

2.2.2 基于实验设计的模型选择准则

线性系统的两种实验设计方法为:输入信号PE条件设计和鲁棒输入谱线密度设计。非线性系统辨识的实验设计缺少正式的范围,思想接近于主动学习(Plutowski and White 1993; Cohn, Ghahramani, and Jordan

1996),局部建模(Murray-Smith 1994),实验设计与实时控制组合(Stewart, Fleming, and Mackenzie, 2003)。这些方法通过获取相关操作域上的数据集或者定义模型结构来处理维数灾难问题。

应用优化实验设计理论进行模型选择的一种方法是测量设计矩阵T特征值的模型充分性。众所周知,最小二乘估计模型趋向近病态的回归矩阵。当min趋近于零时,参数LSˆ的均方误差MSE会非常大。在优化实验设计框架下,自然会考虑模型子集选择。子模型的构建是从全局模型回归矩阵中的m个回归量中选n个,mn。定义结果回归矩阵为nNk,设计矩阵为kTk,nkk,,1,为特征值。以下两个实验为模型子集选择设计标准:

定义1:A-最优性标准,最小化参数估计向量LSˆ的方差之和

nkkLSAtrJ121)]ˆ[cov(min

定义2:D-最优性标准,最大化设计矩阵kTk的行列式

knkkTkDJ1]det[max

这些准则通过较少的条件数保证LSˆ有较小的均方误差MSE,改善模型的鲁棒性。值得注意的是,用

相关主题