[发明专利]信息处理和模型训练方法、装置、设备及存储介质在审
申请号: | 201910138086.7 | 申请日: | 2019-02-25 |
公开(公告)号: | CN111680514A | 公开(公告)日: | 2020-09-18 |
发明(设计)人: | 胡伟;宋俊 | 申请(专利权)人: | 北京猎户星空科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/35 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 王征;刘芳 |
地址: | 100043 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息处理 模型 训练 方法 装置 设备 存储 介质 | ||
本发明实施例提供一种信息处理和模型训练方法、装置、设备及存储介质,通过获取待处理的交互信息,然后确定交互信息对应的意图识别结果,再通过预先训练的联合学习模型,根据意图识别结果对应的槽位抽取子模型,确定交互信息对应的槽位抽取结果。本发明通过先获取意图识别结果、再采用意图识别结果对应的槽位抽取子模型抽取槽位信息,不会对意图识别结果对应的意图中不需要的其他无关槽位信息进行抽取,从而可以提高槽位抽取的准确性。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种信息处理和模型训练方法、装置、设备及存储介质。
背景技术
在自然语言运用中,一些智能终端设备需要对用户的交互语音信息进行理解,从而能够进行正确的操作,比如:智能音箱需要明白用户的意图才能播放正确的资源或者对用户做出正确的回复。因此智能终端设备需要对用户交互信息进行意图识别和槽位抽取,其中槽位是根据用户交互信息生成明确指令时所需要提取的信息,例如用户交互信息为“我想听刘德华的忘情水”,我们希望智能终端设备能够识别出来领域为音乐、意图为播放音乐,并从该用户交互信息中抽取出歌手“刘德华”、歌曲名称“忘情水”,因此歌手“刘德华”、歌曲名称“忘情水”即为槽位信息。
现有技术中,对于用户交互信息进行意图识别和槽位抽取,通常采用两个任务完成,也即通过第一模型进行意图识别,再通过第二模型进行槽位抽取,模型训练过程通常采用预先获取的训练数据集进行训练,而训练后的槽位抽取模型通常会抽取到与真实意图无关的槽位信息,槽位抽取的准确性较低。
发明内容
本发明提供一种信息处理和模型训练方法、装置、设备及存储介质,以提高对于交互信息槽位抽取的准确度。
本发明的第一方面是提供一种信息处理方法,包括:
获取待处理的交互信息;
确定所述交互信息对应的意图识别结果;
通过预先训练的联合学习模型,根据所述意图识别结果对应的槽位抽取子模型,确定所述交互信息对应的槽位抽取结果。
可选的,所述确定所述交互信息对应的意图识别结果,包括:
通过所述联合学习模型中的意图识别子模型,获取所述交互信息对应的意图识别结果。
可选的,所述确定所述交互信息对应的意图识别结果,包括:
将所述交互信息与预设文法集合进行匹配;
若能够从所述预设文法集合获取匹配的文法,则根据所述匹配的文法确定所述交互信息对应的意图识别结果。
本发明的第二方面是提供一种模型训练方法,包括:
获取多个训练数据和所述训练数据对应的标注数据,所述标注数据包括意图分类标注数据和槽位抽取标注数据;
将所述训练数据按照意图分类标注数据划分为多个训练数据组;
针对每一个训练数据组,利用所述训练数据组包含的训练数据、以及所述训练数据的槽位抽取标注数据,对联合学习模型进行训练,其中,所述联合学习模型中不同意图分类对应不同的槽位抽取子模型。进一步的,所述针对每一个训练数据组,利用所述训练数据组包含的训练数据、以及所述训练数据的槽位抽取标注数据,对联合学习模型进行训练,还包括:
针对每一个训练数据组,利用所述训练数据组包含的训练数据、以及所述训练数据的意图分类标注数据,对联合学习模型中的意图识别子模型与所述槽位抽取子模型进行联合学习训练。
进一步的,所述对联合学习模型进行训练之前,还包括:
通过预先训练的词向量模型,对所述训练数据进行分词处理,得到所述训练数据对应的各个词向量以及所述词向量对应的上下文信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京猎户星空科技有限公司,未经北京猎户星空科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910138086.7/2.html,转载请声明来源钻瓜专利网。