当前位置:
文档之家› [实用参考]大数据安全与隐私保护.pptx
[实用参考]大数据安全与隐私保护.pptx
大数据技术框架
数据采集与预 处理
由于大数据的 来源不一,可 能存在不同模 式的描述,甚 至存在矛盾。 因此。在数据 集成过程中对 数据进行清洗, 以消除相似、 重复或不一致 的数据是非常 必要的。
数据分析
分为三类:计 算架构,查询 与索引,数据 分析和处理。
数据解释
旨在更好地支 持用户对数据 分析结果的使 用,涉及的主 要技术为可视 化和人机交互。
角色
LOGO
风险自适应的访问控制
风险自适应的访问控制是针对在大数据场景中,安全管理 员可能缺乏足够的专业知识,无法准确的为用户指定其可 以访问的数据的情况。
案例:基于多级别安全模型的风险自适应访问控制解决方 案、基于模糊推理的解决方案等
难点:在大数据环境中,风险的定义和量化都比以往更加 困难。
LOGO
数据发布匿名保护技术
数据发布匿名保护技术是对大数据中结构化数据实现隐私
保护的核心关键与基本K技匿术名手方段案
典型例子:K匿名方案 k-匿名技术要求发布的数据中存在
一定数量(至少为k) 的在准标识符上不可区分的记录,使
攻击者不能判别出隐私信息所属的具体个体,从而保护了
个人隐私
优势
劣势
前提:数据中存在冗余信息或可容忍一定精度的误差 案例:
1、Agrawal等人基于数据库中数值型数据存在误差容 忍范围,将少量水印信息嵌入到这些数据中随机选取 的最不重要位上。 2、Sion等人基于数据集合统计特征,将水印信息嵌入 属性数据中,防止攻击者破坏水印
LOGO
数据水印技术
数据水印技术应用:强健水印类可用于大数据起源证明, 脆弱水印类可证明基数于据文档的结真构实微性调的水印
存在的问题:当前方案多基于静态数据集,针对大数据的 高速产生与更新的特性考虑不足 文本 水印
基于文本内容的水印
基于自然语言的水印
LOGO
数据溯源技术
数据溯源技术目标是帮助人们确定数据仓库中各项数据的 来源,也可用于文件的溯源与恢复
基本方法:标记法,比如通过对数据进行标记来记录数据 在数据仓库中的查询与传播历史
作者:冯登国 张敏 李昊
大数据安全与隐私保护 中国科学院软件研究所
LOGO
大数据安全与隐私保护
1 大数据的现状 2 大数据研究概述 3 大数据带来的安全挑战 4 大数据安全与隐私保护关键技术 5 大数据服务与信息安全 6 小结
LOGO
一、大数据的现状
为什么我们要 研究大数据?
当今,社会信息化和 网络化的发展导致数 据的爆炸式增长,据 统计,平均每秒有 200万的用户在使用 谷歌搜索,各行业 也有大量数据在不 断产生。
在科学界《Nature》 和《Science》都 推出了大数据专利 对其展开探讨,意 味着大数据成为云 计算之后的信息技 术领域的另一个信 息产业增长点。
缺点:安全与隐私问题是人们公认的关键问题。
LOGO
二、大数据研究概述
特点
大规模 高速性 多样性
大数据
来源
人 机 物
LOGO
大数据分析目标
1
获得知识与推测趋 势 由于大数据包含大 量原始、真实信息, 大数据分析能够有 效摒弃个体差异, 帮助人们透过现象 把握规律。
面
数据溯源与隐私保护之间的平衡
临
的
挑
战
数据溯源技术自身的安全性保护
LOGO
角色挖掘技术
角色挖掘:根据现有“用户-对象”授权情况,设计算法 自动实现角色的提取与优化。
典型工作:
①以可视化形式, 通过用户权限二 维图排序归并方 式进行角色提取
②非形式化: 子集枚举以及 聚类的方法提
取角色
③基于形式化 语义分析、通 过层次化挖掘 来更准确提取
LOGO
三、大数据带来的安全挑战
大数据中的用户隐私保护 大数据的可信性
如何实现大数据的访问控制
大数据带来的安 全挑战
LOGO
大数据带来的安全挑战
用户隐私 保护
不仅限于个人 隐私泄漏,还 在于基于大数 据对人们状态 和行为的预 测。 目前用户数据 的收集、管理 和使用缺乏监 管,主要依靠 企业自律
一定程度上保护了
不能应对数据连续
数据的隐私,能够
多次发布、攻击者
很好的解决静态、
从多渠道获得数据
一次发布的数据隐
的问题的场景。
私保护问题
LOGO
社交网络匿名保护技术
社交网络中典型的匿名保护:
1、用户标识匿名与属性匿名,在数据发布时隐藏了 用户的标识与属性信息
2、用户间关系匿名,在数据发布时隐藏了用户间的关 系
LOGO
五、大数据服务与信息安全
基于大数据的应用
威胁发现 技术
认证技术
数据真实 性分析
安全-即-服务
LOGO
基于大数据的威胁发现技术
基于大数据,企业可以更主动的发现潜在的安全威胁 相较于传统技术方案,大数据威胁发现技术有以下优点:
1、分析内容的范 围更大
2、分析内容的时 间跨度更长
3、攻击威胁的 预测性
常见社交网络匿名保护
1
边匿名方案多基于 边的增删,用随机 增删交换便的方法 有效地实现边匿名 不足:匿名边保护 不足
2
基于超级节点对图 结构进行分割和集 聚操作
不足:牺牲数据的 可用性
LOGO
数据水印技术
数据水印是指将标识信息以难以察觉的方式嵌入在数据载 体内部且不影响其使用方法,多见于多媒体数据版权保护, 也有针对数据库和文本文件的水印方案。
2
分析掌握个性化特 征 企业通过长时间、 多维度的数据积累, 可以分析用户行为 规律,为用户提供 更好的个性化产品 和服务,以及更精 确的广告推荐。
3
通过分析辨别真相 由于网络中信息的 传递更变便利,所 以网络虚假信息造 成的危害也更大。 目前人们开始尝试 利用大数据进行虚 假信息的识别。
LOGO
4、对未知威胁的 检测
LOGO
基于大数据的认证技术
身份认证:信息系知的口令或者持有凭证来鉴别 用户
大数据的 可信性
威胁之一是伪 造或刻意制造 数据, 而错误的数据 往往会导致错 误的结论。 威胁之二是数 据在传播中的 逐步失真。
如何实现 大数据访 问控制
(1)难以预 设角色,实现 角色划分; (2)难以预 知每个角色的 实际权限。
LOGO
四、大数据安全与隐私保护关键技术
1 数据发布匿名保护技术 2 社交网络匿名保护技术 3 数据水印技术 4 数据溯源技术 5 角色挖掘技术 6 风险自适应的访问控制