当前位置:文档之家› 近红外光谱定量分析模型的样本影响研究

近红外光谱定量分析模型的样本影响研究


( ) 4
’ ∰
种 情 况,
✕ e m p =
1 ^ ( ) ∳ ,θ (∳) æ ∑ ∰∳ =1 ^ 2 通常 = ‖æ ∳ - θ‖
可进行 ∬( 次 重 复 计 算 ,这 种 剩 余 样 本 验 证 误 差 作 为 ∬≤ ) 泛化误差的一个估计度量 , ( ) 2 1 ^ ( ) ✕v 5 ✕g e n = a l( ’) ∑ ∬∲ =1 ) 式( 中一个极端的特例 ,也是最常用的特例就是 ’=1, 5 ∬= ’, ( 此剩余样本验证 误 差 的 估 计 方 法 被 称 作 留 一 验 证 l e a v e ∰ , 。由 于 留 一 验 证 对 样 本 具 有 很 好 o n eo u tv a l i d a t i o n L O OV) 的无偏特性 ,所以常被用作泛 化 误 差 的 估 计 器 。上 述 原 理 同
[ 1]
泛 ,数据的分析建模算法也同 样 有 效 ,但 是 生 物 样 本 的 复 杂 性使得 N I R S 技术普遍 地 存 在 模 型 的 选 择 、失 效 、修 正 维 护 等问题 。生物样本与化学样本 之 间 存 在 本 质 的 差 别 ,生 物 样 本具有高变异性 、高 离 散 性 、低 稳 定 性 、干 扰 成 分 未 知 和 样 本采样受限等特点 ,这是大多数化学样本 分 析 时 不 存 在 的 问
’ ∰ ’
若θ 是能决定学习结果的 因 素 集 合 ,则 称θ 为 样 本 的 模 型参数 。 ^ ^ , 为希尔伯 θ 是由模型θ 得到的学习结果 。 ,θ ∈ ) 特( 空间 ,这是一个泛函 空 间 ,学 习 过 程 或 建 模 就 是 H i l b e r t 寻找经验数据风险误 差 最 小 化 的 模 型 θ o t 的 过 程 。通 常 经 验 p ) 风险误差可表示为式 ( 2
6] ,如图 1 所 示 ,其 中 1 样 本 预 处 理 ( , 制 备) 操 程[ 2测量(
推断统计 、分析信息对研究目 标 的 解 释 ,直 至 最 后 对 解 决 问 题的决策信息的提取和确定 。因此这种基 于 统 计 学 习 建 模 的 推断测量过程是一个相对复杂而内涵极其丰富的高知识密度 的技术系统 ,每个环节都涉及数学 、物理 、化学等学科或 光 、 机 、电 、算等工程领域的相关知识 。因此 ,可以认为 N I R S技 术是一种通过各种层面的高知识密度集 成 技 术 ,在 数 据 及 分 析模型基础上最大限度地获取各种物理化学信息或生物信息 的一种综合性极高的现代测量技术方法 。
∰ ɶ∑提出的分析测量流程框图 ∰∯ ‟ ∳ ‟∭ ‟ ˋ ∑∭ ∰ ˇ’ ∑ ‟ ‟∑∭ æ ∰ ɶ∑
上述分析问题的过程可以被归于统 计 学 习 理 论 范 畴 ,其 过程是一种研 究 训 练 样 本 有 限 情 况 下 的 机 器 学 习 规 律 的 学 科 。统计学习理论从一些观测 ( 训 练) 样 本 出 发 ,试 图 得 到 一 些目前不能通过原理进 行 分 析 得 到 的 规 律 ( 可精确表述的数 ,并利用 这 些 规 律 来 分 析 和 解 释 客 观 对 象 ,从 而 可 学模型 ) 以利用规律来对新的样本或数据的较为 准 确 的 推 测 。数 学 上 可看作是基于经验数据进行函数估计问 题 ,或 者 说 是 在 离 散 数据基础上寻找近似的函数依赖关系 。 一般来说 ,在基于大小为 ∰ 的 样 本 集 ,考 虑 逼 近 目 标 函 数的学习问题 ,可表示为 : 设学习目标 函 数 ( ) 维欧几里德 ∹ 是 ∈ ∹ , ( ) 空间 。训练样本由样本点解释数据 ∭ 和相对应的样 E u c l i d ) 本响应数据值 æ 1 ∭ 构成 ,见式 ( (∳, (∳) ={ β +ε } ∳) ∭ = æ æ
∳ =Ω ∳ ∳ =1
) 理论 ,可以得到 一 个 经 验 误 差 与 实 际 误 差 二 者 之 d i m e n s i o n 差的上确界 , s u β✕ p e x e m p -✕ p β= φ ( ) 即 β✕ 3 e x e m ≤φ p -✕ pβ ) 式( 中✕ 3 ✕ e x e m p 是期望误差 , p 是经验 误 差 ,通 常 可 以 将 所 求 模型与数据之间的拟合残差 作 为 经 验 误 差 , φ 是经验误差的 置信范围 。 1 2 基于子空间信息重采样的期望误差估计 实际上 ✕ e x p 是不可预知的 ,但 是 利 用 子 空 间 信 息 的 重 采
7] 。通 过 样 本 集 样方法 ,可以提供一种期望误 差 的 估 计 手 段 [ 合 学习得到 的 一 个 模 型 的 估 计 解 表 示 为^ 。若 想 子模型 群 集 学 习 的 思 路 来 实现 。选择具有∰-’ 个样本空间的子样本空间表示为
∰-’
, 作) 3 信号校验 , 4 评价/校正 , 5数 据 解 释 与 评 价, 6& 7化 学计量算法 。该过程从采样和 选 择 分 析 方 法 开 始 ,经 过 试 验 设计 、测量过程 的 控 制 和 优 化 、分 析 仪 器 所 得 信 号 的 处 理 、
图 1 ∳ 1 ∯ ∬ ∳ ∑ ∭
近红外光谱定量分析模型的样本影响研究
郑 峰1,刘丽莹1,刘小溪2,李 野1,石晓光1,张国玉1,宦克为1
1.长春理工大学 ,吉林 长春 1 3 0 0 2 2 2.吉林省科学技术信息研究所 ,吉林 长春 1 3 0 0 0 0
摘 要 作为二次分析方法 ,近红外光谱分析 的 重 现 性 和 可 靠 性 非 常 依 赖 于 建 模 过 程 。以 近 红 外 光 谱 小 麦 蛋白质定量分析模型为例 ,研究了多变量定标 建 模 过 程 中 异 常 样 本 问 题 ,旨 在 讨 论 复 杂 样 本 建 模 中 的 样 本 对模型的影响和作用 。以 P L S R 算法建模中校正方差与验 证 方 差 的 解 释 百 分 比 曲 线 的 背 离 特 性 作 为 异 常 样 本存在的判据 ,当两个百分比曲线显著偏离时 ,则认为 样 本 集 中 存 在 异 常 样 本 ,并 对 建 模 产 生 了 显 著 影 响 。 异常样本的识别和处理 ,以及影响分析是本文 主 要 的 创 新 性 工 作 ,采 用 了 基 于 样 本 删 除 的 子 模 型 遍 历 统 计 方法 ,能够渐次识别并提取出异常样本 。在剔除异常样本后的模型预测结果中 ,以模型的预测残差标准差作 为参考距离对异常样本进行了离群程度分级 ,可分为显著离群样本 ,相对离群样本以及潜在离群样本 ,数据 集 中显著离群样本约占 7 . 8% ,相对离群样本约占 1 5 . 6% 。异常样本对模型的影响表现在对正常样本的预测 残差上 ,使预测值偏离理想拟合直线 ,分散性增加 。剔除异常样本或以样本权重建模可有效抑制异常样本的 影响 ,使模型的解释性更偏向于多数样本数据 ,降低模型的经验风险误差 。 关键词 近红外光谱 ;样本影响 ;灰色系统 ;子模型群集学习 / ( ) 中图分类号 : . i s s n . 1 0 0 0 0 5 9 3 O 6 5 7 . 3 文献标识码 :A ⦠ : 1 0 . 3 9 6 4 2 0 1 6 1 1 3 5 2 3 0 7 j 间关系的紧密性 ,N I R S在 生 物 领 域 的 研 究 与 应 用 也 非 常 广
其中 “ 广义 ” 一词的含义意指先验信息 非 常 少 。本 文 以 近 红 外 光谱小麦蛋白质定量模型的样本影响统 计 诊 断 为 例 ,重 点 研
5] 究根据统计学习理论 [ 和子模型信息进 行 模 型 优 化 。对 于 信
息有限的灰色系统建模问题来讲 ,在异常 样 本 识 别 后 建 立 的 模型更具健壮性 。

, ∳ ∈ ❋, ∳ ∈ æ ( ) 1
在这个 子 样 本 集 合 上 学 习 得 到 的 一 个 模 型 估 计 解 表 示 为 ^S n -p ,可以用余下 的 ’ 个样本上的误差来反映实际的期望 误差 ,将这个剩余样本的误差 叫 做 验 证 误 差 ,作 为 期 望 误 差 ( ) 或泛化误差 ) 的一种估计 ,可表示为式 ( 4 1 ^ -’ (∳) ( ) ✕v a l( ∳, ∰ ’)= æ ∑ ’∳ =1 ∰-’ 子 集 的 构 建 属 于 抽 样 组 合 ,可 有 由 于
3 4] , 谱建模问题被梁逸曾教授称为广义灰色系统的建模问 题 [
。在 化 学 领 域 的 应 用 过 程 中 ,由
于大多数研究对象通常具有相对稳定的 成 分 构 成 ,不 含 或 极 少存在干扰杂质成分 ,使得 N I R S技术可以非常有效地取代 很多传统化学测量方法 ,极受 化 学 分 析 工 作 者 的 关 注 ,随 之 产生了 大 量 的 关 于 该 技 术 中 数 学 算 法 的 研 究 工 作 , 使 得 N I R S 的建模算法的发 展 极 为 迅 速 。由 于 生 物 和 化 学 领 域 之
3 5 2 4
光谱学与光谱分析 第 3 6卷 数据的处理与分析 ,再到数据 模 型 的 评 价 解 释 、分 析 结 果 的
1 原 理
1 1 分析测量过程和统计学习 按照德国的分析化学家 D a n z e r教 授 对 分 析 测 量 过 程 的 描绘 ,整个测量过程实际上是一个解决实 际 分 析 问 题 的 全 过
引 言
吸收光谱在近红外光谱区已成为一个非常普遍的能得到 产品指纹特征 质 量 指 标 的 测 量 方 法 。近 红 外 光 谱 ( 技 N I R S) 术是一种通过多元数据处理或其他化学计量学方法进行建模 预测的二次测量方法 。作为一 种 二 次 测 量 方 法 ,近 红 外 光 谱 分析技术的重现性和稳健性非常依赖于 统 计 建 模 过 程 ,光 谱 数据的数学处理和基于适当的参考方法校准使得化学成分或 物理性质可以通过近红外光谱来确定 。由 于 该 方 法 的 非 入 侵 无损检测形式和快速多指标同时确定的 特 点 ,被 广 泛 地 应 用 于化学和生物领域的研究
2 0 1 5 0 8 0 5,修订日期 : 2 0 1 5 1 2 2 1 收稿日期 : , 气象 ) 科研专项课题( 2 0 1 4 年度国家公益性行业 ( G YHY 2 0 1 4 0 6 0 3 7) 2 0 1 1年高等学校博士学科点专项科研基金联合资助项目 基金项目 : ( ) 资助 2 0 1 1 2 2 1 6 1 1 0 0 0 6 : 1 9 8 1 年生 ,长春理工大学博士研究生 e m a i l f e n 1 2 1 4@1 2 6. c o m 作者简介 :郑 峰 , g : m a i l h u a n k e w e i 2 6. c o m 通讯联系人 e @1
相关主题