[发明专利]随机结构保形哈希信息检索方法在审

专利信息
申请号: 201410604395.6 申请日: 2014-10-30
公开(公告)号: CN104376051A 公开(公告)日: 2015-02-25
发明(设计)人: 邵岭;蔡子贇;刘力;余孟洋 申请(专利权)人: 南京信息工程大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 南京经纬专利商标代理有限公司 32200 代理人: 吴树山
地址: 215101 江苏省苏州市吴中区木*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 随机 结构 保形哈希 信息 检索 方法
【权利要求书】:

1.一种随机结构保形哈希信息检索方法,其特征在于它包括如下具体步骤:

步骤1:保护高维数据的重要结构,使用提出目标函数对原始的高维数据进行降维,从而得到低维数据;

步骤2:使用已经得出的基算子U和低维数据V的更新规则,计算出原始高维数据的基和低维矩阵;

步骤3:设置门限值并且把训练集中低维实数表现转换成二进制码,用概率统计分类模型逻辑回归计算出测试样本的哈希码;

步骤4:计算训练数据和测试样本之间的汉明距即XOR运算,得出最终的结果。

2.根据权利要求1所述的一种随机结构保形哈希信息检索方法,其特征在于步骤1中所述的保护高维数据的重要结构,使用提出目标函数对原始的高维数据进行降维,从而得到低维数据,是指建立最小化高维空间的联合概率分布和低维空间重尾分布的联合概率分布的KL散度:

C=λKL(P||Q)     (3),

公式(3)中,P是高维空间的联合概率分布,同时可以被表示成pij;Q是低维空间的联合概率分布,同时可以被表示成qij;具体步骤包括:

步骤1.1:条件概率pij表示了数据点xi和xj之间的相似性,其中xi与它们的概率密度成比例;只有重要的点需要去塑造成对的相似性,因此把pii和qii设为0;同时对都有属性pij=pji和qij=qji;在高维空间中的两两相似性可以表示为:

pij=exp(-||xi-xj||22σi2)Σklexp(-||xk-xl||22σk2)---(4),]]>

步骤1.2:其中σi表示了在数据点xi正中心的高斯分布的变量,每一个数据点xi都有相应的复杂度,在低维的图上使用重尾的概率分布,联合概率qij可以被定义成:

qij=(1+||vi-vj||2)-1Σkl(1+||vk-vl||2)-1---(5),]]>

公式(5)定义是高斯的无限混合,由于没有指数项,会比单独的高斯更快的估计点的密度;建立基于KL散度的成本函数公式(6)可以有效地评估数据分布的重点;

步骤1.3:qij和pij可以:

G=KL(P||Q)=ΣiΣjpijlogpijqij---(6),]]>

公式(6)中P和Q之间的KL散度的梯度可以表示为:

g=KL(P||Q)gvi=4Σj=1N(pij-qij)(vi-vj)(1+||vi-vj||2)-1---(7);]]>

步骤1.4:通过结合公式(3)中的数据结构保护部分和NMF,得到下面的新的目标函数:

Of=||X-UV||2+λKL(P||Q)     (8),

此处V∈{0,1}D×N,X,U,V≥0,U∈RM×D,X∈RM×N,同时λ可以控制新的表征的平滑度;

在大多数情况下,只使用NMF的低维数据对实际应用而言不是那么有效和有意义,为了在信息检索中获得更好的结果,需要引入λKL(P||Q)去保护原始数据的结构。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410604395.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top