当前位置:文档之家› 通过加密云数据的安全的排名关键字搜索

通过加密云数据的安全的排名关键字搜索

教育部伊诺理工大学芝加哥教育部伍斯特理工学院伍斯特摘要:随着云计算的普及,敏感信息越来越集中在云端。

为了保护数据安全,敏感的数据必须在外包之前就被加密,这使得有效的数据利用变成了一项非常有挑战性的任务。

虽然传统的可搜索加密方式允许用户安全地通过关键字搜索加密数据,但是这项技术仅仅支持布尔搜索,而没有捕获数据文件的任何相关性。

在直接应用于云计算的背景下,这种方法有两个主要的缺点。

一方面,用户对于云数据加密并不一定具备前置知识,这就导致了他们不得不对每一项检索到的文件去进行后置处理以找出那个最符合他们要求的文件。

另一方面,每次都要检索包含查询关键字的所有文件进一步引起了不必要的网络流量,这在今天的即用即付的云模式中是绝对不可取的。

在本篇论文中,我们第一次定义并解决了在加密云数据中进行有效且安全的排名关键词搜索问题。

通过将匹配的文件按一定的相关性标准返回,排序搜索极大地提高了系统的可用性(例如,关键字的频率),因此,在云计算中更接近于实际部署保护隐私的数据托管服务。

我们首先给出了一个简单而又理想的结构,在最先进的可搜索对称加密(SSE)安全定义下,对关键字搜索进行排序,并展示其效率低下。

为了实现更实际的性能,我们提出了一种可搜索对称加密的定义,并通过正确地利用现有的加密原语——保序对称加密,给出了一个有效的设计(OPSE)。

深入分析表明,与以往的SSE方案相比,我们提出的解决方案具有“尽可能强的”安全性保证,同时正确实现了关键词搜索的目标。

大量的实验结果证明了该方法的有效性。

1、介绍云计算使云客户能够远程将数据存储到云中,以便从共享的可配置计算资源池中享受随需应变的高质量应用程序和服务。

这个新的计算模型带来的好处包括但不限于:减轻存储管理的负担,独立地理位置的通用数据访问,硬件、软件和人员维护等方面的支出的避免等等。

随着云服务的普及,越来越多的敏感信息被集中到云服务器中,如电子邮件、个人健康记录、私人视频和照片、公司财务数据、政府文件等。

为了保护数据隐私并打击未经请求的访问,必须在外包之前对敏感数据进行加密,以便在云内外提供端到端的数据保密保证。

然而,数据加密使有效的数据利用成为一项非常具有挑战性的任务,因为可能会有大量的外包数据文件。

此外,在云计算中,数据所有者可以与大量的用户共享他们的外包数据,这些用户可能只希望在给定的会话中检索他们感兴趣的特定数据文件。

最流行的方法之一是通过基于关键字的搜索。

这种关键字搜索技术允许用户选择性地检索感兴趣的文件,并在纯文本搜索场景中得到广泛应用。

不幸的是,数据加密限制了用户执行关键字搜索的能力,并进一步要求保护关键字隐私,这使得传统的纯文本搜索方法无法应用于加密的云数据。

尽管传统的可搜索加密方案允许用户通过关键字安全地搜索经过加密的数据,而不首先解密它,但这些技术只支持传统的布尔关键词搜索1,而不捕捉搜索结果中文件的任何相关性。

当直接应用于大型协作数据外包云环境时,它们可能会出现以下两个主要缺陷。

一方面,对于每一个搜索请求,没有云数据加密的先验知识的用户为了找到最匹配他们的兴趣的文件,必须处理每个检索文件,这可能要求大量的后处理开销;另一方面,仅仅基于存在/没有关键字,总是发送所有文件,进一步带来大量不必要的网络流量,这在今天的即用即付的云模式下是绝对不可取的。

简而言之,缺乏有效的机制来保证文件检索的准确性,这是在云计算环境下现有的可搜索加密方案的一个重大缺陷。

尽管如此,信息检索(IR)社区中的最新发展已经利用各种评分机制来量化和排序任何给定的搜索查询对应的文件的相关性。

尽管排名搜索的重要性在IR社区的明文搜索背景下已经引起了人们的关注,但令人惊讶的是,它仍然被忽视,而且在加密数据搜索的背景下还有待解决。

因此,如何启用可搜索的加密系统来支持安全排序搜索,是本文要解决的问题。

我们的工作是探索云计算中加密数据排名搜索的前几名。

通过将匹配的文件按照一定的相关性标准(例如,关键字频率)返回匹配的顺序,排序搜索极大地提高了系统的可用性,从而更接近在云计算环境下实际部署隐私保护数据托管服务。

为了实现我们在系统安全性和可用性方面的设计目标,我们结合了加密技术和IR社区两者的先进性,以“尽可能强”安全保证的精神设计出可搜索的对称加密方案。

具体地说,我们研究了IR和文本挖掘中的统计度量方法,在将加密的文件收集外包之前,在可搜索索引的建立过程中嵌入每个文件的权重信息(即相关性分数)。

由于直接外包关联得分将会对关键字隐私泄露大量敏感的频率信息,因此我们整合一个最近的密码原语——保持对称加密(OPSE),并适当地修改它,以保护那些敏感的权重信息,同时提供高效的排序搜索功能。

我们的贡献可以总结如下:(1)首次定义了加密云数据安全排序关键字搜索的问题,提出了一种有效的协议,实现了安全排名搜索功能,对关键词隐私相关度评分信息泄漏小。

(2)彻底的安全性分析表明,与以前的SSE方案相比,我们排名的可搜索对称加密方案确实享有“尽可能强”的安全保证。

(3)广泛的实验结果证明了所提出的解决方案的有效性和有效性。

本文的其余部分安排如下。

第二部分给出了系统和威胁模型,我们的设计目标,符号和预备。

然后我们在第三节提供框架,定义和基本方案,接下来是第四节,详细描述了我们排名的可搜索对称加密系统。

第五节和第六节分别给出了安全分析和性能评估。

第七节讨论了可搜索加密和安全结果排序的相关工作。

最后,第八节给出了整篇文章的结束语。

2、问题陈述A、系统和威胁模型我们考虑一个涉及三个云的数据托管服务不同的实体,如图2所示。

图1:通过加密云数据搜索的体系结构1:数据拥有者(O),数据用户(U)和云服务器(CS)。

数据所有者拥有他想要的n个数据文件C =(F 1,F 2,...,F n)的集合以加密的形式在云服务器上外包,同时仍然保持搜索的能力,以实现有效的数据利用。

为此,在外包之前,数据拥有者将首先从文件集合C中提取2的m个不同的关键字W =(w 1,w 2,...,w m)的集合中构建安全的可搜索索引I,并且把索引I和加密文件集合C存储到云服务器上。

我们假设数据所有者和用户之间的授权是正确完成的。

为了搜索给定关键字w的文件集合,授权用户以秘密形式(关键字w的陷门T w)向云服务器产生并提交搜索请求。

云服务器接收到搜索请求T w后,负责搜索索引I,并将相应的一组文件返回给用户。

我们认为安全排名的关键字搜索问题如下:搜索结果应该根据一定的排名相关性标准(例如,基于关键词频率的分数,将在稍后介绍)返回,以提高用户的文件检索准确度,而不需要事先知道文件集合C。

但是,云服务器应该对相关性标准本身没有什么或几乎没有学习,因为它们会表现出关键字隐私的敏感信息。

为了减少带宽,用户可以随着陷门T w发送一个可选的值k,并且云服务器仅向用户感兴趣的关键字w返回top-k最相关的文件。

我们在我们的模型中考虑一个“诚实但好奇”的服务器,这与以前的大多数搜索加密方案是一致的。

我们假设云服务器以“诚实”的方式行事,正确地遵循指定的协议规范,但对协议期间接收的消息流进行推断和分析以“学习”以学习附加信息。

换句话说,云服务器无意主动修改消息流或破坏其他任何类型的服务。

B、设计目标在上述模型下,为了有效利用外包的云数据,实现排序的可搜索对称加密,我们的系统设计应该达到以下安全性和性能保证。

具体来说,我们有以下几个目标:(1)排名关键词搜索:根据现有的可搜索加密框架,探索设计有效排序搜索方案的不同机制; ii)安全保证:防止云服务器学习数据文件或搜索到的关键字的明文,并与现有的可搜索加密方案相比,实现尽可能强的安全强度; iii)效率:以最少的沟通和计算开销来实现上述目标。

C、符号和预备•C - 要外包的文件集合,表示为一组n个数据文件C =(F 1,F 2,...,F n)。

•W - 从文件集合C中提取的不同关键字,表示为一组m个单词W =(w 1,w 2,...,w m)。

•id(F j)- 文件F j的标识符,可以帮助唯一地定位实际文件。

•I - 从文件集合建立的索引,包括一组发布列表{I(w i)},如下所述。

T wi - 用户生成的陷门作为关键字w i的搜索请求。

•F(w i)- C中包含关键字w i的文件的标识符集合。

•N i - 包含关键字w i的文件数量,N i = | F(w i)|。

我们现在为我们提出的方案引入一些必要的信息检索背景:倒排索引在信息检索中,倒排索引(也被称为发布文件)是一种广泛使用的索引结构,它存储了从关键字到包含该关键字的相应文件集的映射列表,允许全文搜索。

对于排序的搜索目的,确定哪些文件最相关的任务,通常是通过基于下面介绍的一些排名函数,将可以预先计算的数字分数分配给每个文件来完成的。

一个索引的示例性发布列表被显示在图2中。

我们将使用这个倒排索引结构来给出我们基本排列的可搜索对称加密结构。

图2:倒排索引的示例发布列表。

排序函数在信息检索中,使用排序函数来计算匹配文件对给定搜索请求的相关性分数。

在信息检索社区中,用于评估相关性得分,最广泛使用的统计测量是使用TF×IDF规则,其中TF (术语频率)仅仅是给定术语或关键字(我们将在下文中互换使用)的次数出现在文件(在特定文件中测量该术语的重要性),IDF(逆文件频率)通过将整个集合中的文件数除以包含该项的文件的数量获得(衡量整个集合中术语的整体重要性)。

在TF×IDF加权方案的数百个变体中,它们的任何一个组合都不比其他任何组合更普遍。

因此,在不失一般性的情况下,我们选择一个在文献中常用的和广泛见到的例子公式来计算相关性分数。

其定义如下:Score(Q,F d)=1dt∈Q×(1+ln f d,t)×ln(1+Nt)这里Q表示搜索的关键字; f d,t表示文件F d中词条t的TF; f t表示包含术语t的文件数; N表示集合中文件的总数;而|F d| 是文件F d的长度,通过计算索引项的数量获得,作为归一化因子。

3、定义和基本计划在介绍中,我们提出了对加密数据的排名关键字搜索,实现了云计算的规模经济。

在本节中,我们从审查现有的可搜索对称加密(SSE)方案开始,并提供我们提出的排名可搜索对称加密(RSSE)的定义和框架。

请注意,遵循现有SSE的相同安全保证,通过加密数据支持排名搜索功能的效率非常低,如我们的基本方案中所示。

讨论其缺点并以此展开我们提出的方案。

A、可搜索对称加密的背景可搜索加密允许数据拥有者以加密方式外包他的数据,同时保持对加密数据的选择性搜索能力。

通常,使用Oblivious RAM可以在其全部功能中实现可搜索的加密。

尽管可以在恶意服务器(包括访问模式)搜索期间隐藏所有内容,但是利用Oblivious RAM通常会为每个搜索请求带来用户和服务器之间的对数次交互的成本。

相关主题