当前位置:文档之家› 数据挖掘的隐私保护研究

数据挖掘的隐私保护研究

21 0 0年 第 1 0期 ( 第 1 4期 ) 总 3
大 众 科 技
DA ZHONG KEJ
No. 0。 0 0 1 2 1
( u l i l N .3 ) C mu t ey o1 4 av
据挖掘 隐私 保护研究
王滟方 谢 文 阁
( 辽宁工业大学 ,辽 宁 锦 州 1 10 ) 2 0 1
【 键 词 】数 据 挖 掘 ; 隐私 保 护 关 【 中图A
【 文章编号 】10 - 1 1 0 1 — 0 0 0 0 8 15 ( 1)0 0 2 — 2 2 0 户提供所挖掘 的知识 ) 2数据挖掘 中的隐私 不 同的环 境下对隐私 的定义不 同。数据挖掘 中涉 及的隐 私 主 要 有 : ( )个 人 隐私 , 一般 指 的 是 用 户 的一 些 能够 识别 1 用户 身份 的标识 ,如姓名 、年龄 、家庭住址 、电话号码等 , 或 者 是用 户 某 些 行 为 产 生 的信 息 , 例 如 购 物 信 息 , 医疗 信 息 等 ;( )公共 隐私 ,两 个 或 多 个 机 构 ,企业 为 了 共 同 的利 益 , 2 他 们合 作进行挖掘 ,在挖掘 过程中都不愿意将 自己的某些信
( )基本概 念 一
1数据挖 掘 数据挖掘 的定义很 多,表达方式各不相 同。从技术角度 看 ,数 据 挖 掘 是 从 大 量 的 、 不 完 全 、有 噪 声 的 、 模 糊 的 、随 机的实际数据 中,提取 隐含在其中的、人们不知 道的、但又 是潜 在 有 用 的 信 息 和 知 识 的 过 程 ; 从 商 业 角 度 看 , 数 据 挖 掘 是一种崭新的商业信息 处理技术。其主要特 点是对 商业数据 库中的大量业务数据进行抽 取、转化、分析和模 式化处理 , 从中提取辅助商业决策 的关键知识 ,即从一个数据 库中 自动 发现 相 关 商业 模 式 。 数据挖掘 是从数据库 中知识 发现 中的一部分 ,而 知识发 现 是将 原始数据转化为有用 知识的整个过程 。当数据挖 掘成 为普 及 的 涵 盖 面 更 广 的术 语 时 , 数 据 挖 掘 与 知 识 发 现 之 间 的 界 限 就 不 是那 么 明 确 了 。事 实上 , 在 现 如 今 大 多数 场 合 中 , 这 两 个 术 语 的 使用 是 不 加 以 区别 的 , 本 文 也 不 区 分 。知 识 发 现是一个 多步骤 的过程 ,典型 的知识发现过程包括 以下几 个 步骤 : ( )数 据 抽 取 与 集 成 ( 取 各 个 数 据 源 的所 需 数 据 ,进 1 抽
行合并处理 ) ( )数 据 预 处 理 与 清 洗 ( 数 据 再 加 工 ,消 除 噪 声 等 ) 2 对 ( )数 据 选 择 与 变换 ( 择 相 关 数 据 ,统 一 成 适 合 挖 掘 3 选 的形 式 )
隐私保护 的主要 目标是使用 某种 方法对原始数据进行 处 理 ,使 得 私有 数 据 和 知 识 在 挖 掘 之 后 仍 然 是 私 有 的 。 不但 要 在 开 始 时对 某 些 信 息 进 行 保 护 , 而 且 对 挖 掘 过 程 中产 生 的 敏 感 规 则也 要进 行 保 护 ,还 要 考 虑 挖 掘 产 生 的结 果 是 否 会 包 含 某些重要的隐私信息。
【 摘 要 】随着数据量的增大 ,数据挖掘技 术应用不断扩 大 ,如何在挖掘过程 中不泄露私有信息或敏 感知识 ,同时能得 到 比较 准确 的挖掘效果 ,已经成为数据挖掘研 究 中的一个热点课题 。文章从数据分布 的角度结合挖掘算法对 目前几种关键 的隐私 保 护方法进行 了介绍 、分析 ,给 出算法的评估 ,最后 分析 总结 了数据挖掘 隐私保护 未来的研 究方 向。
息泄露给他方 。
随着计算机和 网络信息技术 的发展 ,人们产生和搜集 的 数 据 大大 增 加 , 各 行 各 业 的历 史 数 据 量 猛 增 。怎 样 从 这 些 数 据 中获得 有用 的知识、信息 ,对数据分 析提 出了新 的要求 。 数 据 挖 掘 刚好 可 以解 决 此 问题 ,可 以利 用 这 些 数 据 ,得 到 有 用 的数据信息 或结果,从而帮助决策者制 定更好的决策 ,但 是 与 此 同时 产 生 了 一个 重要 问题 那 就 是信 息 的 泄露 。各 行 业 , 各企业单位 既想 获得数据挖掘 的有用结 果,又不想将 自己拥 有 的某些数据信 息泄露给他方或他人 。因此 ,如何在有效 的 数据挖掘中保护隐私数据 已经成 为一个重要 问题 。
( )数 据挖 掘 的隐私 保护 分类 二
19 9 9年 , a e h g a a R k s rw l在 K D 9中提 出将 数据挖掘 的 A D9 隐私保护将作 为未来的研究重 点之一,此后 ,数据挖掘 的隐 私保护得 到了发展 ,许 多方法不 断的涌现 。从不 同的角度对 数据挖掘的隐私保护方法的分类 也不同。 0 4年, a s l o s 20 V s i in S V r k o 和 E ia B r io等 人 从 数 据 分 布 、数 据 修 改 、 . eyis 1S e t n 数据挖掘算法 、数据及规则 的隐藏及 隐私保护技术五个角度 对 现 有 的 较 为 典 型 的 隐 私保 护 数 据 挖 掘 算 法进 行 了 分类 。 1 数据的分布方式 . 根据 数据 的分布情 况,可 以分为集 中式数据和分布式数 据的隐私保护技术 ,其 中分布式数据 的隐私保护技术又分为 水 平 分 割 和 垂 直 分 割 的 隐 私 保 护 技 术 。 水 平 分 割 主 要 是 指 数 据按记录分布 于多个机构或组织 ,垂 直分割主要指数据按属 性分布于多个机构或组织。 2 数据修 改 . 为了确保原始数据 中的隐私信息不被 泄露,原始数据在 被公开之前要进行一 定的修改 、伪装 ,数据修改方案需要和 隐私保护 策略相结合 。常用的数据修改方法主要有一下几种: ( )值 替 代 方 法 :即将 原始 数 据 的属 性 值 替 换 为 一 个 新 1 的值 ,或 者用一个符号替代 一个 已存在 的值 ,以此来保护敏 感 的数据和规则 ;
相关主题