[发明专利]构建检索数据库的方法、装置、设备以及存储介质在审
申请号: | 202110937110.0 | 申请日: | 2021-08-16 |
公开(公告)号: | CN113656373A | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 尹洁;黄贲 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F16/21 | 分类号: | G06F16/21;G06K9/62 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 构建 检索 数据库 方法 装置 设备 以及 存储 介质 | ||
1.一种构建检索数据库的方法,包括:
获取数据集,将所述数据集分为第一数据集和第二数据集,其中,所述第一数据集中的数据量小于所述第二数据集中的数据量;
对所述第一数据集中的数据进行聚类,得到至少一个一级聚类中心;
基于所述一级聚类中心对所述第一数据集中的数据进行聚类,得到对应的至少一个二级聚类中心;
基于所述第一数据集中的数据与所述一级聚类中心以及所述二级聚类中心的残差,得到所述第一数据集对应的码本;
基于所述第一数据集对应的码本对所述第二数据集进行训练,得到所述数据集对应的码本。
2.根据权利要求1所述的方法,其中,所述基于所述一级聚类中心对所述第一数据集中的数据进行聚类,得到对应的至少一个二级聚类中心,包括:
针对所述第一数据集中的每个第一数据,计算与所述第一数据最接近的一级聚类中心的残差,得到所述第一数据集对应的第一残差向量空间;
对所述第一残差向量空间进行聚类,得到对应的至少一个二级聚类中心。
3.根据权利要求1-2中任一项所述的方法,其中,所述基于所述第一数据集中的数据与所述一级聚类中心以及所述二级聚类中心的残差,得到所述第一数据集对应的码本,包括:
针对所述第一数据集中的每个第一数据,基于与所述第一数据最接近的一级聚类中心和二级聚类中心的残差,得到所述第一数据集对应的第二残差向量空间;
对所述第二残差向量空间进行量化,得到所述第一数据集对应的码本。
4.根据权利要求3所述的方法,其中,所述对所述第二残差向量空间进行量化,得到所述第一数据集对应的码本,包括:
将所述第二残差向量空间分为第一预设数目个子空间;
分别对所述第一预设数目个子空间中的每个子空间进行聚类,得到第二预设数目个空间聚类中心;
分别对所述空间聚类中心的标识号ID进行标记,得到每个子空间的码本;
将所述每个子空间的码本做直积,得到所述第一数据集对应的码本。
5.根据权利要求4所述的方法,其中,所述基于所述第一数据集对应的码本对所述第二数据集进行训练,得到所述数据集对应的码本,包括:
针对所述第二数据集中的每个第二数据,基于与所述第二数据最接近的一级聚类中心和二级聚类中心的残差,得到各第二数据对应的残差向量;
将所述残差向量分为第一预设数目个子空间;
针对所述第一预设数目个子空间中的每个子空间,计算所述子空间内的残差向量与所述子空间内的空间聚类中心的距离;
用与所述子空间内的残差向量最接近的空间聚类中心的ID标记所述第二数据集中的每个第二数据,得到所述数据集对应的码本。
6.根据权利要求5所述的方法,其中,在所述基于与所述第二数据最接近的一级聚类中心和二级聚类中心的残差,得到各第二数据对应的残差向量之前,所述方法还包括:
计算所述第二数据与所述一级聚类中心和所述二级聚类中心的距离;
基于计算结果确定与所述第二数据最接近的一级聚类中心和二级聚类中心。
7.根据权利要求6所述的方法,其中,所述计算所述第二数据与所述一级聚类中心和所述二级聚类中心的距离,包括:
计算所述第二数据与所述一级聚类中心的第一距离;
响应于所述第一距离以及所述一级聚类中心与所述二级聚类中心的第二距离之间不满足三角不等式,进行剪枝操作。
8.根据权利要求7所述的方法,其中,所述计算所述第二数据与所述一级聚类中心和所述二级聚类中心的距离,还包括:
响应于所述第一距离以及所述一级聚类中心与所述二级聚类中心的第二距离之间满足三角不等式,计算所述第二数据与所述二级聚类中心的距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110937110.0/1.html,转载请声明来源钻瓜专利网。