大数据下的隐私保护陈克非
转换钥rk
云服务提供商 或第三方
利用转换钥rk将指定加密数据转换为针 对用户B的密文CB=CPRE.EncPKB(m)
云数据中心
用户A
用户B
图一. 利用条件代理转换加密(CPRE)解决数据共享问题
1. 设计高效安全的条件代理重加密来实现数据共享
2. 为满足隐私性,要求条件代理重加密方案的条件具有匿名性
个人相关信息:属于准标识符(Quasi-identifier),如年龄、性别、种 族、职业、公司、遮挡的图片等,并不与任何PII直接联系在一起;
个人属性信息:是把个人准标识符进一步泛化的模糊信息,如青年 隐性隐私 人(或20-30岁)、南方人、白领、照片剪影等等。
注:1) 准标识符信息虽然不能直接指向具体的人,但是把这些条件组合在 一起,还是很有机会匹配到确定的个体,从而有隐私风险。 2) 用进一步泛化的模糊用户属性解决“Quasi-identifier”的问题,也就 是把能够辨识出个体的信息“虚化”,确保符合属性的个体有足够多的数 量,从而无法准确与个体关联,这就所谓的k-anonymity概念。
问题有解吗?
2020/8/17
20
谢谢!
密文
云数据中 心
令牌
KPABE.GenT搜oken(•)
索 条 件
1. 利用密码手段,包括同态加密用户、KP-ABE密码方案
用
-- 保证数据内容不外泄、扩散
户
-- 搜索条件的隐私保护
2. 为了搜索速度,将通常的检索列表扩展为新的组合索引表
16
可验证的加密云数据外包计算技术
针对加密云数据的计算处 理需求,研究加密云数据 的外包计算技术,既允许 云提供商在不知道用户数 据的情况下仍能为用户计 算处理数据,保护了用户 的数据隐私性,又能让用 户验证外包计算结果的正 确性。
云计算为代表的新型计算资 源可以为大众提供廉价服务
有效保护隐私?
很难!
2020/8/17
11
保护隐私该做什么
用户自我保护意识
慎用云存储:上传重要、敏感数据尤其小心 不要随意注册:很多网站要求填写个人信息 小心玩社交网:朋友圈内的资料难保不被泄露 尽量不提供个人辨识信息,如网购送货到指定地点
建立混合云框架, 结合私有云和公有 云形成兼顾云计算 优点有可以对敏感 数据重点保护的有 效机制;
……。
2020/8/17
13
隐私感知的混合云分割存取技术
1. 合理利用公有云和私有云资源,在两者之间合理分配计算任务,既充 分利用公有云的资源、又有效保护用户隐私并保留数据的效用;
2. 两类隐私信息区分处理:数据记录本身包含的隐私信息,以及数据记 录之间关联关系蕴含的隐私; 3. 分割中,相对独立的数据分配给独立的云平台计算,减少云间通讯。
利用云数据的高效共享分发技术 ,能服务于不同的应用系统,满 足应用对于共享服务的需求
2020/8/17
敏感数据
私有云
敏感数据
(1) 隐私感知 混合云存取
(2) 功能加密 (3) 密文索引 非敏感数据
密文数据 索引表密文
公有云
(2) 密文计算
(3) 密文搜索
(4) 密文共享/ 分发
索引表密文 密文数据
大数据下的隐私保护
陈克非 kfchen@
2014.11.12
西安、贵阳行
网上订机票引出的事
无处不在的大数据
网络应用,移动终端,穿戴设备,。。。 个人数据可以随处采集
例: Google预测流感趋势
2009.2.19,Nature上刊登了一篇关于
Google预测flu trends的文章。
⑤个人的图片和音像。通过图像识别技术,搜索引擎可以准确定位 到人,并找到与之关联的其他资料
⑥其他。从部分已知信息挖掘关联出一系列个人其他资料(喜好习惯
、生活规律等)。
8
例: 网上晒照片造成隐私泄露
某明星在上晒出居室照片被定位
通过分析照片 GoogleEarth 微博等各种信息
人肉搜索事件
服务提供商要担当
有义务保护用户数据 不得滥用用户资料
2020/8/17
12
加强隐私保护研究
研发隐私保护技术
割断用户数据与用户辨识信息的联系,尽量不直接使用个人辨识信 息。例如产生随机数R替代个人辨识信息PII (类似于TSMIIMSI);
对数据进行必要的 分割和拆分,尽可 能去除不同数据项 的关联性,去除数 据内容与个人辨识 信息的联系;
针对隐私云数据的分 割存取需求,建立一 个基于混合云的大规 模数据存取框架,该 框架由一个私有云和 多个公有云组成,以 充分发挥公有云丰富 且廉价的计算资源的 优势。
2020/8/17
私有云
敏感数据 非敏感数据1
...
非敏感数据n
公有云1
公有云n ...
混合云架构设计
14
隐私感知的混合云分割存取技术
系统类事件
2010.9, 发现Google员工利用职权查看了多个用户的隐私数据 2011.3, Google邮箱再爆大规模用户数据泄漏,涉及15万用户 2011.4, Amazon的EC2云计算服务被黑客租用,对Sony PlayStation
网站进行了攻击,造成了大规模用户数据的泄露 2012.8,苹果公司的iCloud云服务受到黑客攻击,黑客暴力破解用户
M
White 02/13/67
M
White 03/21/67 M
邮编 02141 02141 02138 02138 02138 02138 02138 02139 02139 02139 02138 02138
疾病
Short of breath
Chest pain
Hypertension
Hypertension
外包数据 数据,标签
外包服务器 (不可信)
外包计算 合成标签
外包计算 (资源有限)
计算请求 结果,标签
1. 建立云数据外包密文计算系统的形式化安全模型 2. 需要加密数据的可验证外包计算的安全方案
2020/8/17
17
加密云数据的高效共享分发
针对云数据的共享需 求,研究加密云数据 共享分发技术,既允 许用户高效地与其他 用户共享加密云数据 ,又可以保护用户共 享条件的隐私性
2020/8/17
7
需要保护的隐私
在网络环境,部分隐私就关呼个人数据的权利问题。所谓个
人数据,是指用来关联个人基本情况的一组数据资料
①个人登录的身份、健康状况。在申请上网开户、免费邮箱以及申 请服务商提供的其他服务时,服务商往往要求用户相关信息,服务 商有义务和责任保守个人秘密,未经授权不得泄露。
流行病学家发现,Facebook、Twitter这类社 交网站和谷歌等网络搜索引擎,对于流感传 播情况的了解,比世界卫生组织(WHO)或美 国疾病控制与防御中心(CDC)等官方机构的 报告来得还快。
通过Twitter上的数据,可提前八天预报。
大数据时代的安全
2020/8/17
5
典型的安全事件
数据计算用户
数据搜索用户
数据共享用户
19
大数据下隐私保护任重道远
建立云数据隐私保护系统架构,应用尽可能多的密码和匿名
服务技术,可以在一定程度上缓解用户数据泄露和安全风险
现有的技术可保护显示隐私数据 而对于蕴含的隐私数据保护未必有效
对隐私的最大威胁
大量零散的数据是否蕴含有隐私 是否可能对所有数据都实施保护 不相干的数据间挖掘出关联关系
种族
生日
性别
Black 09/20/65
M
Black 02/14/65
M
Black 10/23/65
F
Black 08/24/65
F
云1 Black 11/07/64
F
Black 12/01/64
F
White 10/23/64
M
White 03/15/65
F
White 08/13/64
M
White 05/05/64
3. 为提高效率性,要求方案具有固定的密文长度(即密文长度
与共享条件表达式中条件个数无关)
2020/8/17
18
云数据隐私保护系统
用户可以通过隐私感知的混合云 存取技术对数据作分离,将数据 分别存到公有云和私有云中
通过支持复杂搜索条件的加密云 数据检索技术,用户可以对相关 数据进行高效灵活检索
利用可验证的加密云数据外包计 算技术,用户可以借助云服务提 供商对加密后数据进行计算处理 ,并验证计算结果的正确性
密码后,删除了部分用户资料,而云平台并未备份用户数据导致了 用户数据的丢失,并致使用户Gmail和Twitter账号被盗 2014.8,美版“艳照门”iCloud数据外泄 2014.10,摩根800万客户资料泄露
斯诺登事件
貌似有信誉的商家如政府不靠谱, 用户的安全需要自己把握
人肉搜索事件
对隐私造成巨大威胁且防不胜防
2020/8/17
9
例:k-匿名技术
通过属性泛化实现模糊信息
2020/8/17
10
例:k-匿名技术的效用
k-匿名技术的核心,使符
合相关属性的个体数目巨 大,无法找到唯一解,至 少增加求解的难度。
大数据时代的现状
存在“取之不尽,用之不竭” 的关联数据、关联方程
搜索引擎和各种数据挖、 数据分析、数据关联技术
2020/8/17
15
复杂搜索条件的加密云数据搜索技术
针对加密云数据的信息 检索需求,需要一套具 备隐私保护、支持复杂 搜索条件的加密云数据 检索技术,既允许用户 高效灵活地查询加密云 数据,又能保护用户搜 索条件的隐私。
KPABE.Enc(•)