[发明专利]一种海量数据多维排序搜索方法在审

申请号：	201710362446.2	申请日：	2017-05-12
公开（公告）号：	CN107169114A	公开（公告）日：	2017-09-15
发明（设计）人：	赵志滨;顾佳良;姚兰;高福祥	申请（专利权）人：	东北大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	110819 辽宁***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种海量数据多维排序搜索方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及数据搜索技术领域，尤其涉及一种海量数据多维排序搜索方法。

背景技术

无线体域网的信息隐私包括用户的各项生理参数，大量的隐私数据被存储在云服务器中，密文检索技术是解决云环境隐私安全问题的有效方法。当前的数据保护技术中，加密算法能够较好地保护数据，但加解密计算会对系统效率产生极大的影响；数据拆分重装策略的效率较高，但其对云平台的结构和物理层次依赖性过大。因此，找到数据的实用性与安全性的平衡点是云存储平台应用中最为关键的问题。

CLEAR M提出基于多身份、多密钥的层次全同态加密方案，满足多用户共享，不同身份密文计算。QIANH提出了适用于多机构系统的访问控制方案。CLEAR M提出基于身份的纯全同态加密方案，满足多用户共享和不同身份、不同属性密文计算。Song DX提出了一种加密方式和密文顺序检索架构，该方法证明，在只知道密文的情况下，云存储服务提供商不能截取任何明文的信息。但是，该方案的加密和查询算法的时间复杂度为o(n)，其中n表示文档长度。Goh EJ形式化的定义了安全索引结构-Z索引，该索引模型通过伪随机函数和布隆过滤器(Bloom Filter)实现，可以抵抗适应性选择关键字攻击，然而，Z索引并不提供查询排序机制，若查询词出现在大量文档中，用户需要从大量的结果集中筛选所需文档。通过在倒排表中加入相关度分数，Wang C实现了支持结果集排序的密文检索方法。在查询阶段，云服务器仅需返回与查询条件匹配的前k个相关文档，而不是所有满足条件的文档，这不但减少了带宽的消耗，还改善了用户体验。然而，上述工作仅能解决单关键词密文检索的问题，即用户在一次查询中仅能提交一个查询检索词。

为了更全面的表达用户的查询意图，多关键字检索技术应运而生。Sun W提出一种新的密文检索框架MRSE以解决多关键字密文检索问题。在索引建立阶段，每个文档被表示成一个二进制向量，其中每一位的值代表当前文档是否包含该关键字。查询向量以同样的方式被表示成一个二进制向量。云服务器通过执行矩阵运算和安全k近邻算法获取排序的结果集并返回给用户。然而，MRSE框架的查询响应时间随着文档集的增长而增长，难以适应大数据时代数据迅速增长的需求。

为了加快查询的速度，树形结构普遍应用于索引的构建，比如在数据库领域，Leslie H使用B树来加快查询速度，Ciaccia P通过构造M树加快了对度量空间的索引过程。田雪等人将密文检索框架MRSE进行优化，提出一种新型的密文索引结构：MRSE-SS，将相似查询树结构引入密文索引框架用于提升多关键字排序检索的效率，并且提出一种动态聚类算法DK-MEDOIDS，聚类过程随文档量增加而动态变化，适用于云计算环境下的密文检索场景，但是在该方法中在构建超球体时最坏的时间复杂度会达到o(n2)，并且若在查询算法传递回文档时，若最相关的超球体中文档数少于所查询的k个，则该方法不能解决这个问题。

发明内容

针对上述问题，本发明的目的在于提供一种快速的海量数据多维排序搜索方法。

为了解决背景技术中所存在的问题，本发明的技术方案为：

一种海量数据多维排序搜索方法，包括以下步骤：

1)根据数据库中文档的领域相关度，将文档进行聚类，得到聚类组织相似查询树；

2)将不同的领域的聚类组织进行聚类，形成相似查询树；

3)获取用户提交的查询向量，将查询向量表示为查询超球体；

4)根据查询超球体与相似查询树中节点所代表的超球体的位置关系，获取与查询超球体交集最多的超球体，并对该超球体向下一层节点寻找，直到叶子节点，并查询其左右邻居节点，按照相关比例返回节点中k个最相关的文档列表以及文档向量。

所述步骤1)具体为：

1.1、根据数据库中文档的领域相关度，对相同领域的文档生成一个多维的文档向量DC；

1.2、设置单个槽中元素的门限值T；

1.3、初始化文档向量DC中选择向量值最大和最小的对象，分别做所有槽的上下界；