当前位置:文档之家› 异常值检验方法的比较分析

异常值检验方法的比较分析

设 备 不 够 完 善 、测 量 单 位 混 乱 、仪 器 示 值 突 然 跳 动 、突 然 震 动 、操 作 失 误 等 不 该 发 生 的 原 因 。如果数据中含有 异 常 值 ,就 会 使 统 计 分 析 误 差 增 大 ,小 则 出 差 错 ,严 重 则 可 能 发 生 事 故 ,甚 至 导 致 领 导 层 决 策 失 误 ,因此对 异 常 值 进 行 检 验 具 有 重 要 意 义 。 自 B e r n o u lli定 义 异 常 值 以 来 ,国 内 外 对 异 常 值 的 检 验 研 究 已 有 很 多 。 B e c k m e n 等[1]关 于 异 常 值 提 出 了 两 种 比 较 常 用 的 定 义 :一 是 将 异 常 值 解 释 为 假 定 的 分 布 中 的 极 端 值 ;二是 把 异 常 值 视 为 杂 质 点 ,与 数 据 集 的 主 体 不 是 来 自 同 一 分 布 ,而 是 来 自 某 一 分 布 的 少 量 杂 质 。现有的异常值检 验 方 法 大 体 可 分 为 两 类 。1)基 于 模 型 的 方 法 ;K ita g a w a ™ 基 于 A I C 准 则 提 出 用 于 检 验 单 一 异 常 值 、多个最 大 (最 小 )异 常 值 的 模 型 ,该 模 型 克 服 了 狄 克 逊 检 验 法 、格 鲁 布 斯 等 检 验 法 的 局 限 性 。1^111^比 11^等 [3]针对 标 准 化 皮 尔 森 残 差 只 适 用 于 检 验 单 一 异 常 值 的 情 形 ,利 用 删 除 组 残 差 的 方 法 ,提出检验多变量逻辑回归模型 中 多 个 异 常 值 的 方 法 。 吕庆哲等[4]利 用 似 然 比 方 法 和 G ib b s 抽 样 方 法 对 A R M A 模 型 的 A O 型孤立点进行 检 测 ,实 验 表 明 后 者 比 前 者 检 验 效 果 更 好 。 田玉柱[5]等 提 出 检 验 E X P A R 模 型 中 异 常 值 的 绝 对 值 统 计 量 、平 方 统 计 量 和 调 整 的 平 方 统 计 量 ,研 究 表 明 上 述 统 计 量 对 于 检 验 异 常 值 十 分 有 效 。王 志 坚 等 [6]针 对 1 0 型异 常 点 的 检 验 统 计 量 中 a 的 不 稳 健 性 ,提 出 用 绝 对 离 差 均 值 替 代 a ,数 据 模 拟 表 明 改 进 后 的 方 法 检 测 能 力 显 著 提 高 。金 立 斌 等 [7]针 对 一 阶 空 间 自 回 归 模 型 ,依 据 均 值 滑 动 模 型 和 方 差 加 权 模 型 ,给出异常值的得分检验统 计 量 及 其 近 似 分 布 。2)基 于 非 模 型 的 方 法 ;W u [8]提 出 用 最 小 二 乘 法 确 定 正 态 样 本 下 最 大 (最 小 )异常值的数 量 ,该 方 法 简 单 容 易 ,并 且 能 够 克 服 m a s k in g 效 应 和 s w a m p in g 效 应 。J a b b a ri等[9]将检验指数分布异常值的 统 计 量 扩 展 到 伽 玛 分 布 中 ,并 与 狄 克 逊 统 计 量 进 行 比 较 ,结 果 表 明 前 者 比 后 者 检 验 效 果 更 好 。L a lit h a 等 [1°] 针 对 指 数 样 本 提 出 厶 统 计 量 ,通 过 与 狄 克 逊 统 计 量 A 、T t 统 计 量 、L t 统 计 量 比 较 ,厶 统 计 量 检 测 偏 差 更 小 ,并 且 其 临 界 值 可 以 通 过 计 算 得 出 。王 炳 兴 [11]在 指 数 分 布 场 合 提 出 适 用 于 同 时 含 有 异 常 大 、异常小数据 的 检 验 方 法 ,导 出 了 检 验 统 计 量 及 其 近 似 分 布 ,通 过 实 例 验 证 了 该 方 法 的 合 理 性 。张 德然[12]基 于 异 常 大 值 、 异 常 小 值 、既 有 异 常 大 值 又 有 异 常 小 值 三 种 情 形 ,提 出 利 用 各 点 跳 跃 度 检 验 异 常 值 的 方 法 ,并 针 对 指 数 分 布 以 定 理 的 形 式 给 出 了 检 验 统 计 量 及 其 分 布 。利用工效学用户测评数据能够有效探寻产品中影响用户使用的
异 常 值 常 见 于 抽 样 误 差 、人 为 误 差 、偶 然 误 差 中 ,抽 样 误 差 包 括 数 据 本 身 的 一 些 特 征 、在抽样过程中出现 的 一 些 技 术 问 题 ;人 为 误 差 常 见 的 有 瞒 报 、虚 报 、错 读 、错 记 、数 据 输 人 错 误 、数 据 丢 失 等 ;偶 然 误 差 包 括 采 集
跳 跃 度 检 验 法 对 异 常 值 的 个 数 分 七 种 情 况 进 行 模 拟 研 究 ,并 对 工 效 学 用 户 测 评 数 据 析 ,研 究 结 果 表 明 ,跳 跃 度 检 验 法 识 别 异 常 值 的 准 确 率 更 高 ,并且在 一定数量的异常值下避免了 M a s k in g 效 应 (判 异 为 正 )和 S w a m p in g 效 应 (判 正 为 异 )。当数
异常值检验方法的比较分析
Vol. 30 No. 2 May 2 0 17
刘 金 娣 ,李 莉 莉 ,高 静 ,卢 睿 (青 岛 大 学 经 济 学 院 ,青 岛 266042)
摘 要 :针 对 格 鲁 布 斯 检 验 法 3 检 验 法 检 测 异 常 值 的 局 限 性 ,使 用 格 鲁 布 斯 检 验 法 3 检 验 法 、
第 30卷 第 2 期 2017年 5月
青 岛 大 学 学 报 (自 然 科 学 版 )
J O U R N A L O F Q IN G D A O U N IV E R S IT Y (N a tu ra l Science E d itio n )
文章编号:1 0 0 6 - 1037(2017)02 -0 1 0 6 - 04 doi : 10. 3969/j. issn. 1006 - 1037. 2017. 05. 23
据 差 异 较 小 时 ,格 鲁 布 斯 检 验 法 和 Z 检 验 法 检 测 异 常 值 的 效 果 较 好 ,当 数 据 差 异 较 大 时 ,跳 跃度检验法检测异常值的效果更好。
关 键 词 :格 鲁 布 斯 检 验 法 ;Z 检 验 法 ;跳跃度检验法
中 图 分 类 号 =0 2 1 2
文 献 标 志 码 :A
相关主题