当前位置:
文档之家› 大数据隐私保护技术综述_方滨兴
大数据隐私保护技术综述_方滨兴
护,需要对隐 私数 据进行 量化。在隐 私数 据的量化 过 程中,需要综 合考虑用户的属 性、行为、数 据的属性、传播途径、利用方 式等因素,并对隐私数 据的计算和变更有 很好的支撑。
2.2 大数据生命周期的隐私保护模型
在 大 数 据发布、存 储、挖 掘 和使 用的 整 个 生命周期 过 程中,涉及 数 据发布者、数 据 存 储 方、数 据 挖 掘 者 和 数 据 使 用者 等 多 个 数 据 的用户,如图1 所 示。在 大 数 据 生命 周期的各个阶段,大数 据隐私保 护模型各 部分的风险和技术如下所述。
Key words
big data, privacy preservation, data dissemination, data mining, data access
2016001-1
2 BIG DATA RESEARCH 大数据
1 引言
1 https:// / wiki/Privacy
大 数 据 蕴含着巨 大的商业价值,目前 各 行 各业 都 在 做 大 数 据 分 析 和 挖 掘 ,企 业、运营商等 在各自拥有的数 据或互联网 上发布的数 据中发掘潜在价值,为提高自 己的利润或达到其他目的服务。然而,在享 受 大 数 据 挖 掘 得 到的 各种各 样 有价 值 的 信 息给生产、生活带来便利的同时,也不可避 免 地 泄 露了人们的隐 私。例 如,亚马逊 公司 推 出了“未下单先调货”计 划,利 用大 数 据 分析技术,基于对网购数 据的关联挖掘分 析,在用户尚未下单前预测其购物内容,提 前发出包裹 至转运中心,缩短配 送时间, 但如果处理不好,很可能会泄露大量 用户 的 隐 私;医 院 在 给 疾 病 控 制中心 等 研 究 部 门提 供大数 据,进行疾病预防和决策时, 如果不进行数 据处理,则会泄露病人的隐 私信息;上市公司在 发布自己财务年报 或 其他 新产品信息时,如果不对发布的数 据 进行适当处理,就会 给商业 上的竞争者以 可乘之机。
FOCUS 聚焦 1
大数据隐私保护技术综述
方滨兴1,2,贾焰2,李爱平2,江荣2 1. 北京邮电大学,北京 100876;2. 国防科学技术大学计算机学院,湖南 长沙 410073
摘要
大 数 据 分析带 来 的 隐 私 泄 露 问 题日趋 严重,如 何 在 利用 大 数 据为各 行各业 服 务 的 同 时,保 护 隐 私 数 据 和 防 止敏感信息泄露成为新的挑战。大数据具有规模大、来源多、动态更新等特点,传统的隐私保护技术大都已 不 再适 用。为此,给出了大 数 据 时代的 隐 私 概 念 和 生 命周 期 保 护 模 型;从 大 数 据 生 命周 期 的 发布、存储、分 析 和 使 用 4个 阶 段出 发,对 大 数 据 隐 私保 护中的 技 术 现 状 进行了分 类 阐 述,并对 各 技 术 的 优 缺 点、适 用范 围 等 进行分析;对 大 数 据 隐 私保 护技术 发 展的方向和 趋 势 进行了阐 述。
图 1 大数据隐私保护生命周期模型
2016001-3
4 BIG DATA RESEARCH 大数据
匿名、t - clo s e n e s s 匿名、个 性化 匿名、 m -inva ria n ce匿名、基于“角色构成”的匿 名等方 法,可以实现 对发布数 据时的匿名 保 护。在大 数 据的环 境下,如何 对 这 些 Байду номын сангаас 术进行改进和发展,以满足大数 据发布的 隐私保护需求,是需要着重研究的内容。
如何 在不泄 露用户隐 私的前 提下,提 高大 数 据 的 利 用率 ,挖 掘 大 数 据 的 价 值 , 是目前大数 据研究领域的关 键问题,将直 接关系到大数据的民众接受程度和进一步 发 展 趋 势。具体而言,实 施大数 据环境下 的隐私保 护,需要在大数 据产生的整 个生 命周期中考虑两个方面:如何从大数 据中
(2)数据存储 在大数 据时代,数 据存储方一般为云 存储平台,与传统数 据的 拥有者自己存储 数 据不同,大数 据的存储者和拥有者是分 离的,云存储服务 提 供商并不能保证是完 全可信的。用户的数 据面临着被不 可信的 第三方偷窥数 据或者篡改数 据的风险。加 密 方 法 是 解 决该问题 的 传 统 思 路,但 是 , 由于大 数 据的查 询、统计、分析和计 算等 操作也需要在云端 进行,为传统加密技 术 带来了新的挑战。比如,同态加密技术、混 合加 密 技 术、基于 B L S短 签名P O R 模 型、 D P D P、K n o x 等 方 法,是 针对 数 据 存 储 时 防止隐私泄露而采取的一些方法。 (3)数据挖掘 数 据挖掘者即从发布的数 据中挖掘 知 识 的人 或 组 织 ,他 们 往 往希望 从 发 布 的 数 据中尽可能 多地分析 挖 掘出 有价 值 的 信 息,这很可能会分析出用户的隐私信息。在 大数 据环境下,由于数 据存在来源多样性 和 动 态 性 等 特点,在 经 过 匿名等 处 理 后的 数 据,经 过 大 数 据 关联 分析、聚类 、分类 等 数 据挖 掘方 法后,依然可以分析出用户的 隐 私。针对数 据挖 掘的隐 私保 护 技 术,就 是 在 尽可能 提高大 数 据 可用性 的 前 提下, 研 究 更 加 合 适 的 数 据 隐 藏 技 术 ,以 防 范 利 用数 据发 掘 方 法 引发 的 隐 私 泄 露。现 在 的主要 技 术包 括:基 于 数 据 失 真 和 加 密 的 方 法,比 如 数 据 变 换 、隐 藏、随 机 扰 动、平 移、翻转等技术。 (4)数据使用 数据使用者是访问和使用大数据以及 从大数 据中挖 掘出信息的用户,通常为企
例 如,病人 的患病 数 据、个人 的 位 置 轨 迹 信息、公司的财务 信息等 敏感数 据都 属于隐私。但当针对不同的数 据以及数 据 所有者 时,隐 私的定 义也会 存 在 差 别[2]。例 如,保守的病人会视疾病信息为隐私,而开 放的病人却不视 之为隐私;小孩子的定位
FOCUS 聚焦 3
信息 对于父母而言不是隐私,对于其他人 而言却是隐私;有些用户的数 据现在是隐 私,可能几十年后就不是隐私。从隐私的类 型划分,隐私可划分为五大类。
随着智慧城市、智慧交通、智能家居、智 能电网、智慧医疗、在线社交网络、Web 3.0 等 数字 化技术的发展,人们的衣食住行、 健康医疗等 信息被数字化,可以随时随地 通过海量的传感 器、智能处理设备等终端 进 行 收 集 和 使 用,实现 物 与 物、物 与人、人 与人等之间在任 何时候、任 何地点的有 效 连接,也促成了大数据时代的到来[1]。
(1)数据发布 数据发布者即采集数据和发布数据的 实体 ,包 括 政 府 部门、数 据 公司、网 站 或 者用户等。与传统针对隐私保 护进行的数 据发布手段相比,大数 据发布面临的风险 是大数 据的发布是动态的,且针对同一用 户的数 据 来源众多,总量巨 大,如何 在 数 据发布时,保证 用户数 据可用的情况下, 高效、可靠 地去掉可能泄 露用户隐 私的内 容,是 亟待 解决的问题。传统针对 数 据的 匿名发布技术,包括k -匿名、l-diversity
Abstract
Privacy disclosure issue becomes more and more serious due to big data analysis. Privacy-preserving techniques should be conductive to the big data applications while preserving data privacy. Since big data has the characteristics of huge scale, numerous sources and dynamic update, most traditional privacy preserving technologies are not suitable any more. Therefore, the concept of privacy and life cycle protection model of big data era were introduced firstly. Technical state of big data privacy preservation was elaborated from the points of view of four stages in big data life cycle, i.e. data publishing, storage, analysis and use. The relative merits and scope of application of each technology were investigated as well. Finally, some important direction and tendency of privacy preservation technologies for big data were suggested.
Privacy preservation in big data: a survey
FANG Binxing1,2, JIA Yan2, LI Aiping2, JIANG Rong2 1. Beijing University of Posts and Telecommunications, Beijing 100876, China 2. School of Computer, National University of Defense Technology, Changsha 410073, China
2 大数据隐私概念与表示模型
2.1 隐私的概念及量化
在维 基百科中,隐 私的定义是 个人 或 团体 将自己 或自己的属性隐藏 起 来的能 力,从而 可以选择性地 表 达自己1。具体什 么被界定为隐 私,不同的文化 或个体可能 有不同的理 解,但 主体思想是一致的,即 某 些 数 据 是 某 人(或团体)的隐 私时,通常 意 味 着 这 些 数 据对他们 而 言是 特 殊的或 敏 感的。综上所述认为,隐私是可确认特定个 人(或 团 体)身份 或 其 特 征 ,但 个人(或 团 体)不愿 被暴露的敏 感 信息。在具体应 用 中,隐私即用户不愿意泄露的敏感信息,包 括用户和用户的敏感数据。