[发明专利]索引的数据处理方法、装置、计算机设备和存储介质在审

专利信息
申请号: 202110988730.7 申请日: 2021-08-26
公开(公告)号: CN113626443A 公开(公告)日: 2021-11-09
发明(设计)人: 陈汝龙;刘天赏;钟晓超 申请(专利权)人: 企查查科技有限公司
主分类号: G06F16/22 分类号: G06F16/22;G06F16/23;G06K9/62
代理公司: 广州华进联合专利商标代理有限公司 44224 代理人: 姜晓云
地址: 215000 江苏省苏州市苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 索引 数据处理 方法 装置 计算机 设备 存储 介质
【说明书】:

本公开涉及一种索引的数据处理方法、装置、计算机设备和存储介质。所述方法包括:当内存中增加业务数据时,判断业务数据的业务标识是否在第二字典中存在;若不存在,则将业务数据更新至索引、第一字典、第二字典中;若存在,则在索引中更新业务数据对应的向量;其中,第一字典和第二字典是在内存中创建的,第一字典中存储向量业务索引关系,向量业务索引关系包括通过向量标识查找与向量标识对应业务标识;第二字典中存储业务向量索引关系,业务向量索引关系包括通过业务标识查找与业务标识对应的向量标识。采用本方案可以不需要手动进行维护向量标识和业务标识的索引关系。

技术领域

本公开涉及机器学习领域,特别是涉及一种索引的数据处理方法、装置、计算机设备和存储介质。

背景技术

随着互联网的发展,越来越多的人工智能产品出现,而这些产品构建的基础大部分都是利用了传统机器学习或者深度学习。然而在机器学习领域,对于某个对象实体的表示,一般是用向量来表示,比如一本书,我们提取出它的书名、作者、时间、类别等特征,将这些特征构建出一个向量,这样就用向量来表示这本书,后面才可以使用各种算法进行计算,比如找出相似的书、推荐感兴趣的书或者自定义分类等等。在基于内容的推荐算法中,需要用一个商品的向量去召回多条相似的商品,然后推荐给用户,这里就转化成了向量搜索的问题,用一条向量去查找多条相似的向量;在基于用户的协同过滤推荐算法中,需要用一个用户去召回多个相似的用户,然后将相似用户的关联商品推荐给当前用户,同样也是转化成了用户向量的搜索问题。

传统的向量搜索技术中,主要使用facebook开源的faiss、微软开源的SPTAG(Space Partition Tree And Graph,分布式近似最近邻域搜索库)和Milvus。

然而,目前的Milvus与faiss、SPTAG一样,仅支持int数字类型的ID(Identitydocument,标识信息),无法直接用在系统中,必须手动来维护向量ID和业务ID的映射关系。

发明内容

基于此,有必要针对上述技术问题,提供一种能够将向量ID与业务ID自动映射的索引的数据处理方法、装置、计算机设备和存储介质。

一种索引的数据处理方法,所述方法包括以下步骤:

当内存中增加业务数据时,判断业务数据的业务标识是否在第二字典中存在;

当业务数据的业务标识未在第二字典中存在时,将业务数据更新至索引、第一字典、第二字典中;

当业务数据的业务标识在第二字典中存在时,在索引中更新业务数据对应的向量;

其中,第一字典和第二字典是在内存中创建的,第一字典中存储向量业务索引关系,向量业务索引关系包括通过向量标识查找与向量标识对应业务标识;第二字典中存储业务向量索引关系,业务向量索引关系包括通过业务标识查找与业务标识对应的向量标识。

在其中一个实施例中,将业务数据更新至索引、第一字典和第二字典中,包括:

通过自增计数器生成业务数据对应的向量的向量标识,并将业务数据的向量加入至索引中;

将业务数据对应的向量的向量标识和业务数据的业务标识设置为向量业务索引关系并存储至第一字典中;

将业务数据的业务标识和业务数据对应的向量的向量标识设置为业务向量索引关系并存储至第二字典中。

在其中一个实施例中,在索引中更新业务数据对应的向量,包括:

从第二字典中获取与业务数据的业务标识对应的向量标识,记为第一向量标识;

将索引中与第一向量标识对应的向量删除,并将业务数据的对应的向量作为第一向量标识对应的向量加入索引中。

在其中一个实施例中,第一字典和第二字典在内存中创建前,方法还包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于企查查科技有限公司,未经企查查科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110988730.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top