[发明专利]意图识别模型的确定及检索意图识别方法、装置有效
申请号: | 201910082455.5 | 申请日: | 2017-10-31 |
公开(公告)号: | CN109815308B | 公开(公告)日: | 2021-01-01 |
发明(设计)人: | 张潇;李泽中;苟秋媛;梁东 | 申请(专利权)人: | 北京小度信息科技有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33;G06F16/951;G06F40/30;G06K9/62;G06N3/08 |
代理公司: | 北京智信四方知识产权代理有限公司 11519 | 代理人: | 宋海龙;钟文芳 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 意图 识别 模型 确定 检索 方法 装置 | ||
本公开实施例公开了一种意图识别模型的确定及检索意图识别方法、装置。所述意图识别模型的确定方法包括:获取训练关键词相关的用户日志;基于所述用户日志以及已有系统对象信息确定所述训练关键词的扩展因子,所述扩展因子至少包括主题在所述训练关键词上的概率分布和已有系统对象信息在主题上的概率分布;利用所述训练关键词以及所述扩展因子训练机器学习模型,得到意图识别模型。本公开可利用一个轻量级的原始训练样本得到一个较为精确的意图识别分类模型,节省了成本,提高了检索的准确性。
本申请为分案申请,其母案申请的申请日为“2017年10月31日”、申请号为“2017110537100”、发明名称为“检索意图识别方法、装置、电子设备及可读存储介质”。
技术领域
本公开涉及计算机技术领域,具体涉及一种意图识别模型的确定及检索意图识别方法、装置。
背景技术
传统的搜索技术使用倒排索引构建数据索引关系,搜索过程往往是一个简单的字符串匹配算法。而高阶的搜索引擎,除了基本的性能优化以外,更多的考虑是如何提升用户的点击率,这就需要去挖掘用户输入关键字背后包含的更深层次的信息。例如:用户搜索“附近高端的宾馆”一词,从搜索意图角度看,包含了地理信息——“附近的”,需求信息——“宾馆住宿”、价格信息——“高消费水平”,从而为搜索引擎描绘了一副用户“搜索画像”,因此在对召回结果排序时,就需要考虑价格、评价、距用户的距离等信息。
发明内容
本公开实施例提供一种意图识别模型的确定及检索意图识别方法、装置、电子设备及计算机可读存储介质。
第一方面,本公开实施例中提供了一种意图识别模型的确定方法。
具体的,所述意图识别模型的确定方法,包括:
获取训练关键词相关的用户日志;
基于所述用户日志以及已有系统对象信息确定所述训练关键词的扩展因子,所述扩展因子至少包括主题在所述训练关键词上的概率分布和已有系统对象信息在主题上的概率分布;
利用所述训练关键词以及所述扩展因子训练机器学习模型,得到意图识别模型。
结合第一方面,所述扩展因子还包括:
所述训练关键词与已有关键词在主题维度上的概率分布以及所述训练关键词与所述已有系统对象信息在主题维度上的概率分布中的至少之一。
结合第一方面,本公开在第一方面的第一种实现方式中,获取训练关键词相关的用户日志,包括:
获取预定时间段内以所述训练关键词作为输入的搜索日志。
结合第一方面,本公开在第一方面的第二种实现方式中,所述扩展因子包括主题在所述训练关键词上的概率分布,则基于所述用户日志以及已有系统对象信息确定所述训练关键词的扩展因子,包括:
基于所述用户日志提取第一主题;
计算所述第一主题与所述训练关键词之间的边缘分布;
根据所述第一主题与所述训练关键词之间的边缘分布确定所述第一主题在所述训练关键词上的概率分布。
结合第一方面,本公开在第一方面的第三种实现方式中,所述扩展因子包括已有系统对象信息在主题上的概率分布,则基于所述用户日志以及已有系统对象信息确定所述训练关键词的扩展因子,包括:
基于所述已有系统对象信息提取第二主题;
计算所述第二主题与所述已有系统对象信息之间的边缘分布;
根据所述第二主题与所述已有系统对象信息之间的边缘分布确定所述已有系统对象信息在所述第二主题上的概率分布。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小度信息科技有限公司,未经北京小度信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910082455.5/2.html,转载请声明来源钻瓜专利网。