第35卷第1期2017年1月西安航空学院学报Journal of Xir an Aeronautical UniversityVol. 35 No. 1Jan.2017大数据背景下的个人隐私保护研究牛晨晨,周畅,张異(兰州财经大学信息工程学院,甘肃兰州730000)摘要:随着互联网、物联网、云计算等信息技术的快速发展,数据的规模呈爆炸式增长,标志着大数据的时代已经来临。
大数据在带来巨大商业价值的同时,也不可避免地会侵犯到个人隐私。
首先就大数据与个人隐私的概念做了说明,其次分析了大数据对个人隐私造成的威胁,最后讨论了个人隐私保护的技术和法律规范。
关键词:大数据;个人隐私;隐私侵犯;隐私保护中图分类号:TP309 文献标识码:A文章编号=1008-9233(2017)01-0073-041大数据的概念及特征大数据的概念最早出现在《Nature》杂志于2008 年开办的 Big-Data专栏中。
在“Big data:science in the petabyte era”一文中 ,大数据被定义为“代表着人类认知过程的进步,数据集的规模是无法在可容忍的时间内用当前的技术、方法、手段和理论来获取、存储、管理和处理的数据”[1]。
但是到目前为止业界对大数据依旧没有统一的定义。
针对大数据的特征比较有共识的主要有三点:规模性(Volume)、多样性(Variety)和高速性(Velocity)[2]。
除 此之外 国际数 据公司 (InternationalData Corporation,IDC)还提出了 4V的特征,即在原来3V的基础上又加人了价值性(Value)这一特性[3]。
大数据的这些特征具体表现在以下几个方面:(1) 数据量:数据规模是巨大的,数据的出现往 往是P B或Z B级的;(2) 数据多样性:数据的来源不仅多,而且呈现 不同的结构特征,除了结构化数据之外,也产生了半结构化以及非结构化数据;(3) 数据速率:不仅数据的产生速度快而且传 播的速度也是非常迅速的,并且呈现流式的特征;(4)数据价值:数据的价值总量是巨大的,但从中提取的价值密度却是非常稀疏的。
2个人隐私的概念1890年,W arren和Brandeis在《哈佛法律评论》上发表了《隐私权》一文,最早提出了隐私的概念。
他们认为公民的个人隐私权是一项独特的权利,神圣不可侵犯,理应受到应有的保护,以防他人无根据地发布个人想要保守的秘密[4]。
在大数据时代,我们常常将个人隐私与个人信息联系起来,但是它们是完全不同的两个概念,个人隐私包含在个人信息当中。
个人信息中除了那些被保护的信息外,其他的信息是可以在法律允许的情况下被开发利用的,而那些被保护的信息就是个人隐私。
这里我们就把个人隐私定义为公民个人不想让他人获知的一些个人信息,比如个人身份信息、个人收人情况以及身体健康状况等。
Bamsar等人把个人隐私分成了四类[5]:(1) 信息隐私:主要是个人的一些基本信息括个人的身份证号、收人状况、婚姻情况以及身体健康状态等;(2) 通信隐私:主要是个人与他人使用不同通信方式进行交流的情况,包括QQ、微信以及邮收稿日期=2016-12-09作者简介:牛晨晨(1989 —),男,河南周口人,硕士研究生,主要从事数据挖掘研究。
74西安航空学院学报第35卷件等;(3) 空间隐私:主要是个人所拥有的特定空间, 比如个人的具体家庭地址以及所出人的场所;(4)身体隐私:主要是个人的身体受自己支配, 保证不被他人或机构进行损害,比如药物测试等。
3大数据带来的隐私威胁大数据的发展是一把双刃剑,它带来巨大商业价值的同时也不可避免地对个人隐私造成了侵犯。
就大数据所带来的隐私威胁,主要牵涉以下几个 方面:3.1个人隐私信息非自愿上传大数据时代背景下,大部分的数据并非个人自 愿上传的,特别是在网上的一些行为数据。
比如在 互联网上的一些浏览及搜索记录等都被服务商所 监控,并将采集到的这些信息存储起来,可能服务 商利用这些信息用作他途,而这些却都是在当事人 不知情的情况下发生的。
3.2侵犯个人隐私行为难以认定由于侵犯个人隐私行为的方式是多样的,而现 有的法律又不是很完善,对于有些行为是否属于侵 权很难确定。
比如用户出于保护隐私的角度采用 了匿名的方式,而一旦被侵权就很难收集到对自己 有力的数据,想找到真正的侵权人则更增加了 难度。
3. 3个人隐私信息管理难度增加由于信息技术的高速发展,人们所能获得的数 据也更加复杂,这就使得个人对于自己的隐私信息 管理难度也增加了。
具体体现在:在收集个人信息 时,面对这些海量的数据怎样确保所收集到信息是 完整的;而在存储所收集到的个人隐私信息方面有 什么更好的方法来防止他人的窃取;在使用这些个 人信息时,如何在不增加过多管理工作量的基础 上,使不同的人能够访问到不同级别的数据;在信 息发布时如何在保证数据有效的同时不会泄露自 己的隐私。
3. 4个人隐私保护技术难度增加当人们逐渐意识到要保护自己的隐私,并试图 将自己在网上的信息进行藏匿时,殊不知自己的行 为,特别是在社交网络上已经留下了太多足迹[6]。
大数据下,可以把那些单点看似不相关的信息连接起来,那么那些所谓的隐私就将不再是隐私了。
单纯的从技术层面就可以通过对数据的抽取和集成来获取个人的隐私信息,现实中的“人肉搜索”就是 典型的例子。
对于那些动态的海量数据即流数据如何来构建隐私保护而不影响到数据的有效使用。
这些问题都使得大数据下对于个人隐私保护技术 的难度增加了。
3.5多维灵活的个人隐私保护政策仍在摸索现实生活中企业为了能够提供更好的服务常 常要求用户提交自己的一些敏感信息,而用户为了 获得更好的体验效果也会按照要求填写,但是在数 据的使用方面往往出现欺诈和隐私泄露的问题,这 就使得用户在注册信息时会填写虚假信息,但是虚 假的信息就不能获得服务商的一些特殊服务,由此 造成了恶性循环。
因此如何来构建多维灵活的个 人隐私保护政策是大数据时代背景下的一个亟需 解决的问题。
4大数据背景下的个人隐私保护技术如果是仅仅为了保护个人的隐私信息而把有关自己的数据全部藏匿起来,远离大数据时代,就 有点因小失大了。
因此,针对大数据背景下的个人 隐私保护本文提出了几种技术来解决。
4.1社交网络匿名保护技术社交网络是大数据的重要来源之一,其所产 生的数据里面包含了大量的个人隐私信息。
社 交网络中产生的数据不同于以往的结构化数据, 它包含了大量的半结构化和非结构化数据。
社 交网络中最常用的匿名技术主要是点匿名和边 匿名,其中点匿名采用的是在数据发布时隐藏用 户的基本特征和属性,而边匿名则采用的是隐藏 用户间的关系。
侵权者常常会利用各节点的属 性进而识别出用户的个人信息。
目前的边匿名 方案实现有效匿名的方式主要是基于边的增删。
Zhang L J 等主要是根据节点的度数不同来进行分组,然后再从这些度数相同的节点中进行边的 交换[7]。
这种方法的最大弊端就是随机增加的 噪声点过于离散稀疏化,存在边匿名保护不足。
另一个对社交网络实现匿名保护技术的方法就 是基于超级节点来对图结构进行切割和聚集操 作,这种匿名方案尽管能够实现边的匿名,但却第1期牛晨晨,等:大数据背景下的个人隐私保护研究75是以数据可用性的牺牲为代价。
4.2数字水印技术数字水印技术指的是将标识信息直接嵌人到 数字载体中,并且不影响原来载体的使用,也不容 易被察觉和篡改,这种方法常被用于对多媒体版权 的保护。
现在也有针对数据库和文档的水印保护 方案。
但是由于数据的特性而有所不同,对数据库 和文档的水印保护方案要求数据中存在多余的信 息并且能够容忍一定程度的误差。
A graw al等人提 出了在数据误差允许的范围之内,可以将少量水印 信息嵌人到那些随机选取的数据中相对不重要的 位置上。
另外,还有一种方法可以通过将数据库指纹信息嵌人到水印中[1°],就可以识别出拥有该 信息的对象,这种方法还能够实现在分布式环境下 追踪到泄密者。
A graw al等人提出的数据水印技术 所具有的特性在大数据时代背景下前景非常广阔,例如,大数据的起源证明就可以通过强健水印来 实现。
4.3差分隐私保护技术现在人们对于自己隐私的保护越来越重视,因此,便出现了根据节点信息来推测个人信息的针对 性的隐私获取方法。
2006年D w ork首次提出了一 个统计隐私模型,也就是差分隐私保护来解决这个 问题[11]。
差分隐私保护最大的优势是它提供了更 多的语义保证,无论侵权者采用怎样的手段,都只 能从个人数据中得出有限的结论。
因为差分隐私 保护有一个健壮的攻击模型,而且还对隐私泄露的 风险进行了量化表示,也就是侵权者不能通过已有 的信息来推断未知的信息即使仅剩一条未知,这样 差分隐私保护使泄露的风险微乎其微。
在差分隐 私保护的模型中任意的添加或删除一条记录并不 会改变输出的结果,它的目的就是使隐私泄露的风 险最小而使数据获得最大化的利用。
而且差分隐 私保护技术由于自身具备与特定领域无关的特性,因此它能很好地与其他领域结合,目前已经广泛应 用于机器学习与密码学等。
由于差分隐私保护技 术是基于数据失真技术的,其所加人的噪声点与全 局敏感性有关而与数据集的大小无关,因此可能加 人少量的随机噪声点就能够达到很好的隐私保护 目的。
4.4数据访问控制技术目前已有服务商提供了一些方法让用户自己控制所发布的信息以及对哪些人可见,用户可以自己制定约束权来限制所访问的数据的多少。
比如在腾讯公司的Q Q即时通讯中,用户就可以通过设 置“所有人可见”“仅好友可见”“仅自己可见”来保 护自己的隐私。
现在的企业所提供的软件应该对 这些隐私进行更细粒度的划分,让用户自己来决定 自己所发布的信息可以被哪些人看到,能被看到的信息有多少,这是大数据时代背景下对个人隐私保 护的一种趋势。
5大数据背景下个人隐私保护的法律与行业规范个人隐私保护除了先进的技术手段之外,也需要有相应的法律规范与其配套实施,这样才能在隐 私受到侵犯时有法可依、有法可循。
5.1 法律法规层面截至目前我国还没有专门针对公民个人隐私信息的立法,一些隐私保护的条文散见于宪法及其 他法律中。
但是随着大数据时代的发展,相关立法 也会在不久的将来出台。
本文以为法律的制定应 该从以下几个方面着手:(1) 数据的收集:任何企业或组织对于公民人信息的收集必须是正规的,而不是通过欺骗的手 段获得,在数据收集传输的过程中要保证公民个人 信息不被泄露。
(2) 数据的使用:用户信息的使用者为其行承担相关的责任,不能滥用公民的个人信息,而且 在使用过程中应该建立严格的访问机制,确保隐私数据不被泄露。