[发明专利]搜索词的推荐方法、目标模型的训练方法、装置及设备有效
申请号: | 202011563137.X | 申请日: | 2020-12-25 |
公开(公告)号: | CN112650907B | 公开(公告)日: | 2023-07-14 |
发明(设计)人: | 姜富春 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9535 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 马敬;项京 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索词 推荐 方法 目标 模型 训练 装置 设备 | ||
1.一种搜索词的推荐方法,包括:
获取输入的目标搜索词;
以所述目标搜索词为当前节点,确定所述当前节点的邻居节点以及所述当前节点与所述邻居节点之间的关系;
对所述当前节点的第一文本信息和所述邻居节点的第二文本信息分别进行语义表征处理,得到所述当前节点的第一语义表征和所述邻居节点的第二语义表征;
基于所述第一语义表征和所述第二语义表征,以及所述当前节点与所述邻居节点之间的关系,确定所述目标搜索词的语义聚合表征;
以所述语义聚合表征为索引,从候选搜索词集合中召回待推荐的候选搜索词。
2.根据权利要求1所述的方法,还包括:
根据目标搜索词的搜索频次、结果页展现量和点击量的统计特征,筛选候选搜索词;
根据筛选出的候选搜索词,建立候选搜索词集合。
3.根据权利要求2所述的方法,其中,所述候选搜索词集合是以近邻检索服务ANN索引库的形式存在的,所述根据筛选出的候选搜索词,建立候选搜索词集合包括:
对筛选出的所有候选搜索词,预测所有候选搜索词的语义聚合表征;
基于所有候选搜索词的语义聚合表征,建立ANN索引库。
4.根据权利要求3所述的方法,其中,所述以所述语义聚合表征为索引,从候选搜索词集合中召回待推荐的候选搜索词,包括:
以所述语义聚合表征为索引,确定所述语义聚合表征与所述ANN索引库中的语义聚合表征的相似度;
将相似度排名前N的语义聚合表征确定为目标语义聚合表征,所述N的值为正整数;
召回所述目标语义聚合表征对应的候选搜索词作为待推荐的候选搜索词。
5.一种目标模型的训练方法,包括:
将训练样本中样本搜索词输入预设模型的预设第一网络模型,得到所述预设模型的所述预设第一网络模型输出的以所述样本搜索词为当前节点的邻居节点以及所述当前节点与所述邻居节点之间的关系;
将所述当前节点的第一文本信息和所述邻居节点的第二文本信息输入所述预设模型中的预设第二网络模型,得到所述预设第二网络模型输出的所述当前节点的第一语义表征和所述邻居节点的第二语义表征;
将所述当前节点的所述第一语义表征和所述邻居节点的所述第二语义表征输入所述预设模型的预设第三网络模型,得到所述预设第三网络模型输出的所述样本搜索词的语义聚合表征,所述语义聚合表征用于做索引,从候选搜索词集合中召回待推荐的候选搜索词;
基于以所述样本搜索词为当前节点的邻居节点以及所述当前节点与所述邻居节点之间的关系、所述样本搜索词的语义聚合表征、所述训练样本中各个节点的语义聚合表征标签以及节点与节点之间的关系的标签,确定损失函数;
根据所述损失函数进行反向传导更新所述预设模型,得到所述目标模型。
6.根据权利要求5所述的方法,还包括:
基于用户交互行为,从搜索日志中挖掘多个节点以及所述多个节点中节点与节点之间的关系;所述节点至少包括样本搜索词和样本网页标题其中一类节点;
根据所述多个节点以及所述多个节点中节点与节点之间的关系构建文本图;
基于所述文本图生成训练样本。
7.根据权利要求6所述的方法,其中,确定所述多个节点中节点与节点之间的关系的方式,包括下述至少之一:
确定样本搜索词与样本搜索词之间的第一类关系;
确定样本搜索词与样本网页标题之间的第二类关系;
确定样本网页标题与样本网页标题之间的第三类关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011563137.X/1.html,转载请声明来源钻瓜专利网。