[发明专利]一种基于近似语义查询的K支配隐私保护方法有效
申请号: | 202211496552.7 | 申请日: | 2022-11-25 |
公开(公告)号: | CN115982752B | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 李松;吴楠;曹文琪 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06F40/30 |
代理公司: | 北京中索知识产权代理有限公司 11640 | 代理人: | 商金婷 |
地址: | 150080 黑龙江省哈尔*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 近似 语义 查询 支配 隐私 保护 方法 | ||
1.一种基于近似语义查询的K支配隐私保护方法,其特征在于包括以下步骤:
步骤一、获取包含真实位置的矩形区域中的位置数据集,采用MCA算法计算正方形区域中位置地理坐标的聚类中心,得到若干个聚类中心,这些聚类中心被选为虚拟候选集,首先将样本对象作为第一聚类中心,然后选择离第一聚类中心最远的样本作为第二聚类中心,然后确定其他的聚类中心,直到没有新的聚类中心,确定所有聚类中心后,将包含m个样本的聚类样本集作为虚拟位置候选集,根据算法1,选择l1作为第一聚类中心,后选择l5作为第二聚类中心,再确定第三聚类中心l9,经过聚类计算,得到三个聚类中心,生成虚拟位置候选集;
其中MCA算法的具体步骤如下:
1)给定γ的数值同时保证γ的取值范围处在0<γ<1区间范围内;
2)将真实位置lre作为第一聚类中心Z1;
3)找到离Z1最远的位置,作为第二聚类中心Z2;
4)对于Sn中剩余对象的每个li,其到Z1和Z2的距离是Di1和Di2;假设D12是Z1和Z2之间的距离,若Di=max{min(Di1,Di2)}且其中的i∈(1...n)且Diγ·D12,则取li为第三个聚类中心Z3;
5)以此类推,得到所有符合条件的v个聚类中心,当最大最小距离小于γ·D12时,寻找聚类中心的计算结束;
6)假设v代表计算得到的聚类中心个数,判断符合下面哪种情况:
(1)如果v≥m,则算法结束;
(2)如果v<m,则重新选择γ的值,然后重新执行步骤1;
7)生成候选集合S1;
通过最大最小距离的多中心聚类方法,选择若干位置后,再经过哑元方法处理后产生一个候选的数据集,其中哑元方法处理的具体过程如下:
步骤1:提出了一种考虑位置地名的语义信息特征的哑元选择方法,平衡了隐私保护和查询质量之间的矛盾;
步骤2:采用基于最大最小距离法的多中心聚类算法生成哑元数据集,保证了哑元的物理分散性;
步骤3:计算地理地名信息之间的语义相似度,选择语义相似度最小的位置地名作为哑元,保证了哑元的语义多样性;
所提出的哑元生成方法通过以下两种算法来实现:首先,通过算法1进行聚类计算生成哑元数据集S1;其次,通过算法2,计算候选集S1中位置的语义相似度来产生虚拟集S2;
步骤二、计算地理位置信息之间的距离后,计算得到候选集合中任意两个位置之间的语义相似度,选择k-1个语义相似度最小的地理位置作为虚拟位置,其中语义相似度的计算和获取虚拟位置结果集的具体步骤如下:
1)依次匹配地名信息的每个字符,忽略匹配值相同的前缀字符,然后,得到两个新的字符串A和B;
2)假设字符串A包含i个字符,它表示为A=a1a2a3Lai;字符串B包含j个字符,表示为B=b1b2b3Lbi;
3)构造一个i+1列j+1行的动态规划矩阵,从D[i,j]得到的最后一个元素是ed(A,B);
4)如果j=0,返回i,然后退出;如果i=0,返回j,然后退出;
5)第一行初始化为(0,1,l,i);第一列初始化为(0,1,l,j);
6)给矩阵中的每个元素赋值:
如果ai=bi,则D[i,j]=D[i-1,j-1];
若ai≠bi,则D[i,j]=1+min{D[i-1,j-1],D[i-1,j],D[i,j-1]};
7)重复步骤6,直到获得矩阵中的所有值,最终保证距离为D[i,j];
8)通过D[i,j]计算相似度匹配指数S(A,B),即语义相似度;
9)选择语义相似度最小的k-1个位置,生成虚拟结果集S2。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211496552.7/1.html,转载请声明来源钻瓜专利网。