[发明专利]一种用户意图识别方法、设备及模型构建方法在审
申请号: | 202011598057.8 | 申请日: | 2020-12-29 |
公开(公告)号: | CN112650859A | 公开(公告)日: | 2021-04-13 |
发明(设计)人: | 王绪刚 | 申请(专利权)人: | 北京欧拉认知智能科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/33;G06F40/279 |
代理公司: | 成都顶峰专利事务所(普通合伙) 51224 | 代理人: | 王霞 |
地址: | 100000 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用户 意图 识别 方法 设备 模型 构建 | ||
本发明公开了提供一种用户意图识别方法、设备及模型构建方法,其通过将待搜索语料解析成包含实体和关系的节点语并作为用户意图识别模型的输入,可避免在识别过程中语法噪音的存在,大大提高意图识别的准确度。该模型构建方法包括以下步骤:收集训练集语料并将其解析为包含有实体和关系的节点语句;构建并训练翻译模型,所述翻译模型包括编码器网络和解码器网络;在训练完成的编码器网络上增加注意力和全连接网络,构成用户意图识别模型;固定编码器网络参数,使用解析后的训练集训练用户意图识别模型。
技术领域
本发明属于信息搜索技术领域,具体地涉及一种用户意图识别方法、设备及模型构建方法。
背景技术
随着互联网上的数据量激增,作为对信息资源进行组织、提取、搜索的有效工具,搜索引擎能为用户快速定位想要的互联网资源提供帮助。搜索引擎的工作成效既取决于搜索用户是否能将自己的意图需求变换为准确的查询词,也取决于查询词被搜索引擎理解的良好程度,当这两方面都能被很好地完成时,返回结果的质量就能得到较大提高。目前的搜索引擎在用户搜索意图识别方面,能力显得非常孱弱。尤其是在问答中,由于提问者的水平参差不齐,且口语随意性较强,可能有缺失很多内容,语法错误也较多,存在提问意图不清的情况,具有歧义性。另外,知识图谱中的信息量往往是有限的,无法实时更新信息数据,具有滞后性。这些都增加了意图识别的难度。
申请号为201810877616.5的发明专利公开了“一种基于迁移学习的用户意图识别的方法”,其通过用户意图标注语料进行模型训练,实现用户意图识别,但是,采用标注语料其存在相关语法噪音,这些噪音的存在将会给意图识别带来难度,降低用户意图的识别准确度。
发明内容
为了解决现有用户意图识别模块在语音存在歧义时识别精度不高的问题,本发明提供一种用户意图识别方法、设备及模型构建方法,其通过将待搜索语料解析成包含实体和关系的节点语并作为用户意图识别模型的输入,可避免在识别过程中语法噪音的存在,大大提高意图识别的准确度。
本发明通过以下技术方案实现:
一种用户意图识别模型构建方法,包括以下步骤:
收集训练集语料并将其解析为包含有实体和关系的节点语句;
构建并训练翻译模型,所述翻译模型包括编码器网络和解码器网络;
在训练完成的编码器网络上增加注意力和全连接网络,构成用户意图识别模型;
固定编码器网络参数,使用解析后的训练集训练用户意图识别模型。
本方案的用户意图识别模型通过在编码器网络中加入注意力和全链接网络构筑用户意图识别模型,以实体及关系的节点语句作为用户意图识别模型的训练语料,在满足训练数据需求量少的前提下,通过将语料解析为实体和关系的节点语句,避免语法噪音的存在,大大提高了意图识别准确度。
一种用户意图识别方法,包括以下步骤:
获取用户的待搜索语料;
根据知识图谱,将待搜索语料解析为包含有实体和关系的节点语句并确定其所属行业;
将解析含有实体和关系的节点语句输入采用上述方法构建的用户意图识别模型中,获得用户意图。
该方法通过将待搜索语料解析成包含实体和关系的节点语句,用户意图识别模型将其作为输入,可避免在识别过程中语法噪音的存在,大大提高意图识别的准确度。
一种用户意图识别设备,包括:
用于存储知识图谱的存储模块;
获取待搜索语料的待搜索语料获取模块;
根据知识图谱将待搜索语料解析为包含有实体和关系的节点语句的解析模块;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京欧拉认知智能科技有限公司,未经北京欧拉认知智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011598057.8/2.html,转载请声明来源钻瓜专利网。