[发明专利]基于局部敏感哈希的大规模多媒体数据的高维索引方法有效
申请号: | 201410356941.9 | 申请日: | 2014-07-24 |
公开(公告)号: | CN104199827B | 公开(公告)日: | 2017-08-04 |
发明(设计)人: | 彭宇新;彭云波;张健 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙)11200 | 代理人: | 余功勋 |
地址: | 100871 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于局部敏感哈希的大规模多媒体数据的高维索引方法,包括以下步骤离线索引阶段,对多媒体数据提取高维特征;建立内存索引,包括特征存储区和哈希表存储区,将多媒体高维特征存储到特征存储区中,计算高维特征的局部敏感哈希向量,并将特征对应的特征编号和局部敏感哈希向量存储在哈希表存储区中;建立一级磁盘索引,包括特征存储区、索引存储区和多个哈希表存储区;建立二级磁盘索引,包括哈希桶存储区;重复上述步骤直到所有多媒体输入全部被索引为止。在线查询阶段,对用于查询的多媒体数据提取特征,在建立的索引基础上进行查询,返回相似的查询结果。本发明提高了内存和磁盘的调度性能,以及多媒体数据索引和检索的速度。 | ||
搜索关键词: | 基于 局部 敏感 大规模 多媒体 数据 索引 方法 | ||
【主权项】:
一种基于局部敏感哈希的大规模多媒体数据的高维索引方法,包括以下步骤:(1)对需要建立索引的多媒体数据提取一种或多种高维特征;(2)基于步骤(1)中的多媒体高维特征建立内存索引,内存索引包括特征存储区和哈希表存储区,将多媒体高维特征存储到特征存储区中,计算多媒体高维特征的局部敏感哈希向量,将对应的特征编号和该局部敏感哈希向量存储在哈希表存储区中;(3)基于步骤(2)中的内存索引建立一级磁盘索引,一级磁盘索引包括特征存储区、索引存储区和多个哈希表存储区;当内存索引中特征存储区中存储的多媒体高维特征数目达到一定值后,通过一级磁盘索引将其写入磁盘文件中的特征存储区;当内存索引哈希表存储区中存储的特征编号和局部敏感哈希向量数目达到一定值后,通过一级磁盘索引将其写入磁盘文件中的哈希表存储区和索引存储区;所述索引存储区的结构为类似于数组结构的、固定长度的连续磁盘空间,区域大小为:索引存储区大小=预计特征总数×特征编号的字节数,索引存储区的脚标对应特征编号,其中,每一维存储与其特征编号对应的局部敏感哈希向量相同的下一个特征,以将所有局部敏感哈希向量相同的特征编号全部链接起来;(4)基于步骤(3)中的一级磁盘索引建立二级磁盘索引,二级磁盘索引包括哈希桶存储区;当一级磁盘索引中哈希表存储区的哈希桶中存储的特征编号和局部敏感哈希向量数目达到一定值后,通过二级磁盘索引将后继需要存入该哈希桶的数据写入磁盘文件;(5)重复步骤(2)、(3)和(4),直到输入的多媒体高维特征全部被索引为止。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410356941.9/,转载请声明来源钻瓜专利网。
- 上一篇:情感数据分类方法和系统
- 下一篇:一种信息查询方法和系统