[发明专利]一种基于BigBase的海量图片搜索系统及方法无效
申请号: | 201110349585.4 | 申请日: | 2011-11-08 |
公开(公告)号: | CN102436491A | 公开(公告)日: | 2012-05-02 |
发明(设计)人: | 张三明;付希全 | 申请(专利权)人: | 张三明;付希全 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 bigbase 海量 图片 搜索 系统 方法 | ||
1.一种基于BigBase的海量图片搜索方法,其特征在于,包括:
步骤1,建立图片特征库:提取图片库中每张图片的SIFT特征向量;将所有图片的特征向量存储到BigBase的一个表中;
步骤2,为特征向量建立索引:通过KDIndexer算法,为每一个特征向量编制索引,通过索引号将向量分堆,每个向量的索引号就是其所在堆的堆号;
步骤3,对输入的图片检索实施按内容检索:首先,提取输入图片的SIFT特征向量;然后,将这些特征向量逐一到特征向量库中按照SBBF算法查找与其匹配的特征向量;最后,按照特征向量的匹配结果得到相似图片的排序列表。
2.如权利要求1所述的基于BigBase的海量图片搜索方法,其特征在于,步骤1中,海量的图片特征向量存储在BigBase的一个单表中,通过BigBase实现传统数据库难以实现的海量存储和并发查询功能。
3.如权利要求1所述的基于BigBase的海量图片搜索方法,其特征在于,步骤2中,在建立索引时采用KDIndexer算法,按照一种类似KD树的结构建立索引;KD树的每一个树叶代表一个堆,每个堆拥有200到400的固定范围数量的特征向量;该范围可以根据匹配的精度要求进行扩大或者减小;每个堆中的特征向量在数据库表中具有相同的ID前缀。
4.如权利要求1所述的基于BigBase的海量图片搜索方法,其特征在于,在步骤3中,通过SBBF算法,输入特征向量仅仅与某一个固定堆进行欧式距离计算。
5.如权利要求4所述的特征值匹配方法,其特征在于,特征值匹配的步骤具体包括:
步骤31,按照SBBF算法,计算输入特征向量的索引号;
步骤32,按照输入特征向量的索引号,到特征向量表中查询所有与该索引号相同的特征向量,得到一个特征向量列表;
步骤33,将输入特征向量与上述特征向量列表中的每一个向量分别计算欧氏距离,得到一个最小距离和一个次小距离;
步骤34,如果最小距离和次小距离的比值小于一个固定的阈值,则认为输入特征向量与最小距离对应的向量匹配,否则,认为没有匹配的特征向量。
6.一种基于BigBase的海量图片搜索系统,其特征在于,包括:
采用SIFT算法提取图片的特征值,从而确保系统对于图片的旋转、尺度缩放、亮度变化保持不变性,对视角变化、仿射变换、噪声也保持一定程度的稳定性;采用Hadoop+BigBase的软件架构,为海量图片及其特征提供了分布式的存储和计算平台。
7.如权利要求6所述的基于BigBase的海量图片搜索系统,其特征在于,在Hadoop平台上存储海量的图片文件时,采用将多个小文件打包成大文件的方法避免HDFS对海量小文件存储的限制。
8.如权利要求6所述的基于BigBase的海量图片搜索系统,其特征在于,采用BigBase存储大量的图片特征值,通过BigBase的快速区间检索能力获得对权利要求4中所述的向量堆的快速读取。
9.如权利要求6所述的基于BigBase的海量图片搜索系统,其特征在于,当图片库的规模增加时,可以通过扩展硬件规模的方法,确保搜索速度不会降低,且硬件扩充的倍数远小于图片规模增加的倍数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于张三明;付希全,未经张三明;付希全许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110349585.4/1.html,转载请声明来源钻瓜专利网。