[发明专利]哈希编码方法和装置有效
申请号: | 201410364922.0 | 申请日: | 2014-07-29 |
公开(公告)号: | CN105320685B | 公开(公告)日: | 2019-03-19 |
发明(设计)人: | 刘汝杰;刘曦 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F16/22 | 分类号: | G06F16/22 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 樊一槿 |
地址: | 日本神奈*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例提供一种哈希编码方法和装置,其中,所述方法包括:首先利用多个投影对数据投影得到多维数据投影值,然后在每维数据下通过k‑means聚类得到k个聚类中心,假定两两相邻聚类中心存在一个阈值,根据熵最大化原则求得(k‑1)个阈值并利用这些阈值及预设的编码方案对每维数据进行编码,最后拼合所有投影下的编码得到最终的二值编码。通过在每个投影方向下使用多个阈值,克服了单阈值量化中无法有效对数据划分问题且可以选择使用任意多个阈值;通过使用多个自适应学习的阈值来对每维数据进行量化,有效地保持了近邻结构,从而为大规模数据索引及近邻查询提供良好基础。 | ||
搜索关键词: | 投影 方法和装置 聚类中心 哈希 大规模数据 自适应学习 最大化原则 多维数据 二值编码 近邻查询 近邻结构 数据投影 阈值量化 有效地 聚类 拼合 预设 索引 量化 | ||
【主权项】:
1.一种哈希编码装置,其中,所述装置包括:投影单元,其基于给定的训练数据集生成多个投影方向;聚类单元,其将所述训练数据集中的所有训练数据在每一个所述投影方向上进行投影,得到对应每一个投影方向的一组投影值,利用预先设定的聚类算法对每一个投影方向对应的投影值进行聚类,得到对应每一个投影方向的预定数量的聚类中心;阈值确定单元,其根据每一个投影方向对应的预定数量的聚类中心,根据熵最大化原则确定对应每一个投影方向的多个阈值,包括:对于每一个投影方向,根据所述投影方向对应的聚类中心的个数确定所述阈值的个数,其中,所述阈值的个数为所述聚类中心的个数减1;对每个阈值赋予候选值;迭代所有阈值的所有候选值,分别计算出相应的熵值;将熵值最大所对应的一组阈值的候选值作为所述多个阈值;所述多个阈值不包含两个阈值;编码单元,其利用对应每一个投影方向的多个阈值,对输入数据在所述每一个投影方向的投影值进行编码,得到所述输入数据的编码。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410364922.0/,转载请声明来源钻瓜专利网。
- 上一篇:测试脚本的生成方法和装置
- 下一篇:一种屏幕补光方法、装置及移动终端