[发明专利]构建检索数据库的方法、装置、设备以及存储介质在审
申请号: | 202110937110.0 | 申请日: | 2021-08-16 |
公开(公告)号: | CN113656373A | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 尹洁;黄贲 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F16/21 | 分类号: | G06F16/21;G06K9/62 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 构建 检索 数据库 方法 装置 设备 以及 存储 介质 | ||
本公开提供了一种构建检索数据库的方法、装置、设备以及存储介质,涉及人工智能技术领域,具体为智能推荐和深度学习技术领域。该方法包括:获取数据集,将数据集分为第一数据集和第二数据集;对第一数据集中的数据进行聚类,得到至少一个一级聚类中心;基于一级聚类中心对第一数据集中的数据进行聚类,得到对应的至少一个二级聚类中心;基于第一数据集中的数据与一级聚类中心以及二级聚类中心的残差,得到第一数据集对应的码本;基于第一数据集对应的码本对第二数据集进行训练,得到数据集对应的码本。本公开的构建检索数据库的方法,减少了检索数据库的占用内存,提高了检索召回率,提高了建库的速度。
技术领域
本公开涉及人工智能技术领域,具体为智能推荐和深度学习技术领域,尤其涉及构建检索数据库的方法、装置、设备以及存储介质。
背景技术
随着CNN(Convolutional Neural Network,卷积神经网络)的广泛应用,使得应用在CNN特征上的基础检索技术ANN(Approximate Nearest Neighbor,近似最近邻检索)也得到了较快发展。针对大规模数据集,当前业内主流的检索算法有HNSW(HierarchicalNavigable Small World)、IVF(Inverted File System)等。但是HNSW算法的计算量大,内存需求大;IVF算法中的聚类中心数目多,迭代次数多,整体计算量接近指数级增长。
发明内容
本公开提供了一种构建检索数据库的方法、装置、设备以及存储介质。
根据本公开的第一方面,提供了一种构建检索数据库的方法,包括:获取数据集,将数据集分为第一数据集和第二数据集,其中,第一数据集中的数据量小于第二数据集中的数据量;对第一数据集中的数据进行聚类,得到至少一个一级聚类中心;基于一级聚类中心对第一数据集中的数据进行聚类,得到对应的至少一个二级聚类中心;基于第一数据集中的数据与一级聚类中心以及二级聚类中心的残差,得到第一数据集对应的码本;基于第一数据集对应的码本对第二数据集进行训练,得到数据集对应的码本。
根据本公开的第二方面,提供了一种检索方法,包括:获取待检索数据;计算待检索数据与检索数据库中的一级聚类中心的距离,得到满足预设条件的第三预设数目个一级聚类中心,其中,检索数据库通过如第一方面中任一实现方式描述的方法得到;计算待检索数据与第三预设数目个一级聚类中心中的每个一级聚类中心下的二级聚类中心的距离,得到满足预设条件的第四预设数目个二级聚类中心;基于检索数据库中的数据集对应的码本,依次获取第四预设数目个二级聚类中心中的每个二级聚类中心对应的样本数据;计算待检索数据与样本数据的距离,基于计算结果返回第五预设数目个样本数据。
根据本公开的第三方面,提供了一种构建检索数据库的装置,包括:第一获取模块,被配置成获取数据集,将数据集分为第一数据集和第二数据集,其中,第一数据集中的数据量小于第二数据集中的数据量;第一聚类模块,被配置成对第一数据集中的数据进行聚类,得到至少一个一级聚类中心;第二聚类模块,被配置成基于一级聚类中心对第一数据集中的数据进行聚类,得到对应的至少一个二级聚类中心;得到模块,被配置成基于第一数据集中的数据与一级聚类中心以及二级聚类中心的残差,得到第一数据集对应的码本;训练模块,被配置成基于第一数据集对应的码本对第二数据集进行训练,得到数据集对应的码本。
根据本公开的第四方面,提供了一种检索装置,包括:第二获取模块,被配置成获取待检索数据;第一计算模块,被配置成计算待检索数据与检索数据库中的一级聚类中心的距离,得到满足预设条件的第三预设数目个一级聚类中心,其中,检索数据库通过如第一方面中任一实现方式描述的方法得到;第二计算模块,被配置成计算待检索数据与第三预设数目个一级聚类中心中的每个一级聚类中心下的二级聚类中心的距离,得到满足预设条件的第四预设数目个二级聚类中心;第三获取模块,被配置成基于检索数据库中的数据集对应的码本,依次获取第四预设数目个二级聚类中心中的每个二级聚类中心对应的样本数据;第三计算模块,被配置成计算待检索数据与样本数据的距离,基于计算结果返回第五预设数目个样本数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110937110.0/2.html,转载请声明来源钻瓜专利网。