数据挖掘在社交网络中的隐私保护唐伟晨(学号:111220114)(南京大学计算机科学与技术系, 南京210093)Privacy-Preserving Data Mining in Online CommunitiesWeichen Tang(Department of Computer Science and Technology, Nanjing University, Nanjing 210093, China)Abstract: Online communities are the most dense area of individual privacy. With the rapid development of online communities, the number of privacy-disclosure problems has been increasing. This article shows the privacy-preserving data mining technology, including how to preserve privacy, the challenges we face and the benefits of privacy-preserving data mining in online communities.Key words: data mining; social networks; privacy protection摘要: 在线社区是网络中个人隐私最为密集的区域。
在线社区的飞速发展的同时,隐私泄露的问题也日益增多。
本文介绍隐私保护数据挖掘技术,包括隐私保护的方法、面临的挑战以及实现在社交网络中隐私保护的数据挖掘的优势。
关键词: 数据挖掘;社交网络;隐私保护中图法分类号: TP301文献标识码: A1 引言近年来在线社区发展迅速,规模越来越大。
截至2013年底我国微博用户为2.81亿,人人网注册用户2.8亿,还有许多大型论坛、企业社区、地方社区等等。
可见在线社区用户规模庞大,可想而知在线社区中的数据规模也是十分庞大的。
庞大的数据,又有各种应用数据挖掘技术的工具对这些数据进行着分析,就会很自然地引发关于隐私方面的争论。
由于对数据挖掘技术的不了解,很多人都在批判将数据挖掘应用于在线社区等隐私集中的区域。
本文将介绍数据挖掘是如何在发挥自身长处的同时保护用户隐私的。
2 背景介绍1. 在线社区简介在线社区是建立在网络上的虚拟社区。
用户通过注册来使用在线社区的扩展功能。
在线社区既可以是互不相识的人们之前的交友平台,也可以是早已认识的两人的联络途径。
在线社区的主要分类有两种,一种是所有人都可以在其中发布信息的,例如微博、BBS等,另一种则是拥有一定权限的人才可以在其中发布信息,例如博客,人人网个人主页等。
2. 数据挖掘的隐私和安全随着数据挖掘的广泛应用,人们越来越多担心如此大规模的应用数据挖掘,可能会对自己的隐私造成侵2 害,所以保护隐私的数据挖掘就应运而生了。
保护隐私的数据挖掘是一个数据挖掘领域的研究,对数据挖掘中的隐私保护做出反应。
当谈到隐私,人们认为就是“不让别人知道我的信息”,然而隐私的定义是“已经发生了的符合道德规范和正当的而又不能或不愿示人事或物、情感活动等”,这两者之间是有差别的。
例如,一个人并不介意别人知道自己的生日,或者是母亲的名字等等。
但是如果这些信息的暴露产生的负面效果,那么人们就会感到自己的隐私受到了侵犯。
另外,如果一个人的所有信息都被暴露,那么很可能就会发生身份盗用。
隐私保护数据挖掘就是要在完成自身功能的同时保护这些暴露的信息不被误用,还要防止身份盗用的发生。
对隐私保护的研究过程中,产生了大量的方法,包括统计学、密码学等方面的方法,由此也产生了基于其上的隐私保护技术。
3 隐私保护的数据挖掘3.1 基本思路隐私保护的数据挖掘的出发点是基于非精确的原始数据挖掘出较为准确的结构。
相比传统的数据挖掘,隐私保护的数据挖掘将原始数据库进行处理,进行特征重构以后再采取挖掘算法得到我们需要的数据。
隐私保护的数据挖掘就是要在原始数据的不准确性和挖掘结果的准确性之间寻求平衡。
3.2 隐私保护技术1. SMC 技术安全多方计算(SMC )是解决分布式计算安全性的重要方式。
在分布式环境中,参与数据挖掘的各个节点间相互不知道对方的原始数据,这样最能保护隐私不被泄露。
假设有1,2,3……,s 节点,每个节点提供的值为j u ,j=1,2,3……,s 。
假设所有节点和为∑==sj j u U 1属于区间[0,n]。
SMC 下执行求和过程如下:节点1选取一个属于区间[0,n]的随机数R ,然后将)()(1n MOD u R +传给节点2。
节点2将收到的值加上2u 再MOD(n)继续传下去,一直到节点s 。
对任意节点k ,其接收到)()(11n MOD u R V k j j ∑-=+=,然后将)()(n MOD u V k +传递到节点k+1。
最后节点s 奖结果sum 传给节点1,节点1根据结果sum 减去自己选取的R 得到真实的∑==s j j u U1。
2. 匿名技术匿名技术不对数据挖掘结果进行保护,也不对原始数据进行伪装,而是公布带有隐私的所有数据,但是他人拿到隐私数据但不能推导出数据拥有者的身份。
具体方法可以分为以下两类:(1)保护隐私属性集合 单个节点公布数据的时候,节点的标识部分不加密,将隐私属性部分进行单独加密。
系统对每个节点的数据进行汇总后也不能看到每个节点的隐私数据,而只能看到该节点的标识属性数据。
系统将收集到的所有节点的标识属性进行归类统计,当统计得出某个节点的标识属性在整个系统中重复次数超过i K ,系统才能根据i K 解密第i 个节点的隐私属性。
(2)隐藏标识属性集合 节点参与系统的数据挖掘时候,通过一个算法要求系统给出每个节点标识规则。
系统应该能测算出至少满足节点标识重复度大于临界δ的标识规则。
节点根据这个规则在对外公布数据时,合理选取标识,使得系统得到的数据由于标识的重复而不能一一对应,从而保护节点的隐私。
3. 数据转换技术 数据转换技术的主要思想是将用户的真实隐私数据进行伪装或轻微改变,通过数据挖掘,得到可以接受3 精度的挖掘结果。
根据不同的数据挖掘技术,对原始数据的伪装方式也不尽相同。
常见的数据转换技术有随机扰动方法、数据几何变换方法等。
(1)随机扰动技术 把单个节点n x x x ,,,21⋯看做n 个具有相同分布的独立随机变量n X X X ,,,21⋯的值,随机变量n X X X ,,,21⋯具有相同的分布,密度函数是x F 。
真实提供给系统的数据是n n y x y x y x +⋯⋯++,,,2211,i y 是加入的噪声数据,对应随机变量i Y 的值,密度函数为y F (均值为0的正态分布或均匀分布)。
对于挖掘算法,已知i i y x +和y F ,需要推出i X 的值才能进行挖掘计算,推算的主要思路是利用贝叶斯定理迭代进行估算x F 。
(2)数据的几何变换 利用计算机图形学中的几何变换思想来对数据进行变换达到保护原始数据的目的。
经过几何变换的数据与原始数据相差较大,对部分挖掘方法的挖掘结果影响较大。
常见的几何变化方法有数据平移、缩放、旋转等。
该类数据转换方法在聚类挖掘技术中应用较好。
聚类技术的核心是考虑数据间的距离,此距离可以化为一个无量纲的相对距离。
原始数据的平移、缩放、旋转等都不会改变数据间的相对距离的大小,实践证明其对聚类方法的挖掘结果影响较小。
4 挑战1. 随着数据挖掘技术的不断推广,数据挖掘如果被滥用,那么我们的社会生活可能会受到严重的影响。
在线社区中的海量数据可能会给很多用户提供极大地帮助,所以很有可能他们就会滥用数据挖掘技术,挖掘他们想要的信息,但却不注意保护他人的隐私。
因此,对于在线社区中的数据挖掘行为要进行严格的监管,数据挖掘的隐私保护技术也需要大力推广。
2. 不论是利用隐私保护技术进行数据挖掘还是对数据挖掘行为进行监管都是需要额外开销的,如何降低开销提高效率也是一大挑战。
3. 不同的隐私保护方法对隐私的保护程度不同,何种隐私需要何种程度的保护没有一个明确的规定,应当建立一个对隐私保护的数据挖掘的评价体系和量化标准。
5 在线社区中运用数据挖掘的优势在人人网,微博等在线社区中,我们经常看到好友推荐,你可能感兴趣的歌曲、电影、活动推荐,甚至是实习岗位推荐等等,这些便捷的功能都是基于数据挖掘实现的。
随着数据挖掘技术的发展以及在线社区和数据挖掘技术的进一步结合,相信在未来的在线社区中我们能体验到更多基于数据挖掘实现的便捷功能。
6 结束语数据挖掘技术多种多样,隐私保护的数据挖掘方法也同样多种多样,本文只介绍了其中几种,笔者在今后还会查阅其他资料,继续了解其他隐私保护技术。
4引用文献[1] Clifton C, Kantarcioglu M, Vaidya J. Defining Privacy for Data Mining[2] Clifton C, Kantarcioglou M, Lin Xiadong, et al. Tools for Privacy Preserving Distributed Data Mining[3] Vaidya J,Clifton C Privacy-Preserving Data Mining: Why, How, and When[4] Agrawal R, Srikant R Privacy-Preserving Data Mining[5] Lindell Y, Pinkas B. Privacy Preserving Data Mining[6] Rizvi S, Haritsa J R. Maintaining Data Privacy in Association Rule Mining[7] CNNIC 《2014年第33次中国互联网络发展状况统计报告》。