[发明专利]用于数据索引的方法、电子设备和计算机程序产品在审
申请号: | 202010479672.0 | 申请日: | 2020-05-29 |
公开(公告)号: | CN113742288A | 公开(公告)日: | 2021-12-03 |
发明(设计)人: | 陈强;于靖;吴鹏飞 | 申请(专利权)人: | 伊姆西IP控股有限责任公司 |
主分类号: | G06F16/13 | 分类号: | G06F16/13;G06F16/14;G06F16/16;G06F16/18 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 罗利娜 |
地址: | 美国马*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 数据 索引 方法 电子设备 计算机 程序 产品 | ||
1.一种用于数据索引的方法,包括:
获得用于存储的多个数据块;
生成所述多个数据块的多个向量化表示,使所述多个数据块中相似性更高的数据块的向量化表示之间的差异更小;以及
存储所述多个向量化表示以用于分别索引所述多个数据块。
2.根据权利要求1所述的方法,其中生成所述多个数据块的所述多个向量化表示包括:
利用已训练的表示生成模型来生成所述多个数据块的所述多个向量化表示,所述表示生成模型为神经网络模型。
3.根据权利要求2所述的方法,其中所述表示生成模型基于训练三元组被训练,所述训练三元组包括第一训练数据块、与所述第一训练数据块相似的第二训练数据块以及与所述第一训练数据块不相似的第三训练数据块,并且
其中所述表示生成模型的训练目标是使所述表示生成模型为所述第一训练数据块和所述第二训练数据块生成的向量化表示之间的差异小于为所述第一训练数据块和所述第三训练数据块生成的向量化表示之间的差异。
4.根据权利要求3所述的方法,其中所述第一训练数据块和所述第三训练数据块从数据块集合中选择,并且所述第二训练数据块通过修改所述第一训练数据块的一部分而生成。
5.根据权利要求1所述的方法,其中所述多个向量化表示由相同维度的数值向量表示。
6.根据权利要求1所述的方法,其中存储所述多个向量化表示包括:
确定适用于近邻搜索的数据结构;以及
将所述多个向量化表示按所选择的数据结构进行存储。
7.根据权利要求1所述的方法,还包括:
获得与查询数据块相关联的查询;
生成所述查询数据块的查询向量化表示;
从所述多个向量化表示查找与所述查询向量化表示之间的差异小于差异阈值的至少一个向量化表示;以及
基于所述多个数据块中由所述至少一个向量化表示索引的至少一个数据块,来确定针对所述查询的响应。
8.根据权利要求7所述的方法,其中生成所述查询数据块的所述查询向量化表示包括:
利用已训练的表示生成模型来生成所述查询数据块的所述查询向量化表示,所述表示生成模型被用于生成所述多个数据块的所述多个向量化表示。
9.一种电子设备,包括:
至少一个处理器;以及
存储有计算机程序指令的至少一个存储器,所述至少一个存储器和所述计算机程序指令被配置为与所述至少一个处理器一起使所述电子设备执行动作,所述动作包括:
获得用于存储的多个数据块;
生成所述多个数据块的多个向量化表示,使所述多个数据块中相似性更高的数据块的向量化表示之间的差异更小;以及
存储所述多个向量化表示以用于分别索引所述多个数据块。
10.根据权利要求9所述的设备,其中生成所述多个数据块的所述多个向量化表示包括:
利用已训练的表示生成模型来生成所述多个数据块的所述多个向量化表示,所述表示生成模型为神经网络模型。
11.根据权利要求10所述的设备,其中所述表示生成模型基于训练三元组被训练,所述训练三元组包括第一训练数据块、与所述第一训练数据块相似的第二训练数据块以及与所述第一训练数据块不相似的第三训练数据块,并且
其中所述表示生成模型的训练目标是使所述表示生成模型为所述第一训练数据块和所述第二训练数据块生成的向量化表示之间的差异小于为所述第一训练数据块和所述第三训练数据块生成的向量化表示之间的差异。
12.根据权利要求11所述的设备,其中所述第一训练数据块和所述第三训练数据块从数据块集合中选择,并且所述第二训练数据块通过修改所述第一训练数据块的一部分而生成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于伊姆西IP控股有限责任公司,未经伊姆西IP控股有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010479672.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种蒸发器边板板材、蒸发器边板、其制造方法及空调器
- 下一篇:一种风管机
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置