[发明专利]训练搜索模型的方法、搜索目标对象的方法及其装置有效
申请号: | 202011330182.0 | 申请日: | 2020-11-24 |
公开(公告)号: | CN112328891B | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 卞东海;彭卫华;罗雨;蒋帅 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/36;G06N3/0464;G06N3/08 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 赵林琳;张昊 |
地址: | 100094 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练 搜索 模型 方法 目标 对象 及其 装置 | ||
1.一种训练搜索模型的方法,包括:
基于样本查询信息获取用于训练所述搜索模型的第一样本数据集;
基于预先构建的知识库确定与所述样本查询信息相关联的附加查询信息;
基于所述附加查询信息获取用于训练所述搜索模型的第二样本数据集,其中所述第二样本数据集与所述第一样本数据集不同;以及
基于所述样本查询信息、所述第一样本数据集和所述第二样本数据集,训练所述搜索模型,
其中所述知识库是知识图谱,并且基于所述知识库确定与所述样本查询信息相关联的所述附加查询信息包括:
获取所述样本查询信息中的关键词;
从所述知识图谱中确定与所述关键词具有连接关系的附加关键词;以及
基于所述附加关键词确定所述附加查询信息,
其中所述第一样本数据集是正样本数据集,并且所述第二样本数据集是负样本数据集。
2.根据权利要求1所述的方法,其中所述知识图谱包含多个节点以及用于连接所述多个节点的多条边,所述多条边用于表征所述多个节点之间的关系,并且从所述知识图谱中确定所述附加关键词包括:
确定所述关键词在所述知识图谱中的对应的关键节点的上位节点;
基于所述多条边中的与所述上位节点连接的边,获取与所述上位节点相关联的至少一个节点,所述至少一个节点与所述关键节点不同;以及
将所述至少一个节点的对应关键词确定为所述附加关键词。
3.根据权利要求2所述的方法,其中基于所述知识库确定与所述样本查询信息相关联的所述附加查询信息还包括:
确定所述关键词与所述附加关键词的路径距离,所述路径距离是所述关键词与所述附加关键词之间的边的数目。
4.根据权利要求3所述的方法,其中基于所述附加查询信息获取用于训练所述搜索模型的所述第二样本数据集包括:
响应于所述路径距离小于或等于阈值路径距离,基于所述附加查询信息获取所述第二样本数据集。
5.根据权利要求1所述的方法,其中训练所述搜索模型包括:
根据所述样本查询信息与所述第一样本数据集中的第一样本,确定所述第一样本命中所述样本查询信息的第一概率;
根据所述样本查询信息与所述第二样本数据集中的第二样本,确定所述第二样本命中所述样本查询信息的第二概率;以及
响应于所述第一概率小于或等于所述第二概率,优化所述搜索模型的参数以更新所述第一概率和所述第二概率,其中更新后的所述第一概率大于更新后的所述第二概率。
6.根据权利要求1至5中任一项所述的方法,其中所述关键词是实体词或者所述实体词的修饰词。
7.根据权利要求1至5中任一项所述的方法,其中所述第一样本数据集和所述第二样本数据集均是图像数据集。
8.一种用于搜索目标对象的方法,包括:
基于接收到的用户查询信息获取多个备选目标对象;
基于根据权利要求1-7中任一项所述的方法训练的所述搜索模型,分别确定所述多个备选目标对象命中所述用户查询信息的概率;以及
将概率超过阈值概率的备选目标对象确定为所述目标对象。
9.根据权利要求8所述的方法,其中所述目标对象是图像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011330182.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于底盘充电口的弹性防护装置
- 下一篇:多路高功率同步脉冲输出装置