[发明专利]一种多模态意图识别方法、装置、设备及存储介质在审

申请号：	202211476158.7	申请日：	2022-11-23
公开（公告）号：	CN116343784A	公开（公告）日：	2023-06-27
发明（设计）人：	王章定;朱亚杰;王波	申请（专利权）人：	合众新能源汽车股份有限公司
主分类号：	G10L15/22	分类号：	G10L15/22;G10L15/26;G10L15/16;G06F16/332;G06F16/33;G06F16/35;G06F18/214;G06N3/044;G06N3/0464;G06N3/088
代理公司：	北京中原华和知识产权代理有限责任公司 11019	代理人：	寿宁;张琳
地址：	314500 浙江省***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种多模态意图识别方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种多模态意图识别方法、装置、设备及存储介质，该意图识别方法包括如下步骤：获取用户的原始语音信息；将获取的原始语音信息转换为文本信息；基于文本分类模型TextCNN对文本信息进行文本特征分类；计算第一交叉熵值；基于无监督预训练模型wav2vec对原始语音信息提取音频特征；基于音频特征进行音频特征分类；计算第二交叉熵值；抽取文本特征和音频特征；拼接抽取的文本和音频特征；对拼接获得的结果进行全连接和激活；计算第三交叉熵值；基于第一交叉熵值、第二交叉熵值和第三交叉熵值的加权运算获得意图识别结果，加权运算的权值基于文本分类模型TextCNN和无监督预训练模型wav2vec的训练获得。本申请避免了文本信息错误引起的错误传递，保证下游任务执行准确。

技术领域

本发明属于多模态意图识别的技术领域，特别是涉及一种多模态意图识别方法、装置、设备及存储介质。

背景技术

随着人机对话的不断发展和完善，意图识别的任务型人机对话不断地部署到人们的现实生活中，如车载语音助手等。人机对话当前主流的方案主要是基于p i p l i ne的模式，即先通过asr模块将用户的语音转换成文本，再对文本进行意图识别的方式(即语音--asr--文本--意图识别模型--用户意图)。在p i p l i ne模式下(纯文本方式)可用的模型很多，比如传统的LSTM、GRU、TextCnn，比如当前的Bert等。

这些模型都有不错的应用效果，但是均面临一个严峻的挑战：错误传递问题，即错误的上游任务导致下游任务的错误。如用户语音实际输入的句子为：“没到鼓楼啊那”(无意义的方言语句)，但是asr(语音识别模块)识别为“到鼓楼我导航”，这直接造成了后续文本任务错误，导致了后续自然语言理解模块(NLU)将其错误文本判定为导航，而且单从文本信息，难以快速发现错误的特征，这是人机对话实际的意图识别中比较普遍的问题。

鉴于上述现有意图识别存在的缺陷，亟需本发明人对当前的意图识别方法进行改进，以解决现有意图识别在实际使用过程中难以快速发现具有错误的文本信息的错误特征，引起错误传递，导致下游任务执行错误的需求就显得尤其重要。

发明内容

本发明提供一种多模态意图识别方法、装置、设备及存储介质，以解决现有意图识别在实际使用过程中难以快速发现具有错误的文本信息的错误特征，引起错误传递，导致下游任务执行错误，通过多模态的意图识别方法，避免了具有错误的文本信息的错误特征向下游任务进行错误的传递，提高了意图识别的正确性，保证了下游任务的执行的准确性。

本发明的目的及解决其技术问题是采用以下技术方案来实现的。

本发明第一方面提供一种多模态意图识别方法，该意图识别方法包括如下步骤：

获取用户的原始语音信息；将获取的原始语音信息转换为文本信息；基于文本分类模型TextCNN对所述文本信息进行文本特征分类；计算第一交叉熵值；基于无监督预训练模型wav2vec对所述原始语音信息提取音频特征；基于音频特征进行音频特征分类；计算第二交叉熵值；抽取文本特征和所述音频特征；拼接抽取的文本和所述音频特征；对拼接获得的结果进行全连接和激活；计算第三交叉熵值；基于第一交叉熵值、第二交叉熵值和第三交叉熵值的加权运算获得意图识别结果，所述加权运算的权值基于所述文本分类模型TextCNN和所述无监督预训练模型wav2vec的训练获得。

可选的，将获取的原始语音信息转换为文本信息包括：将原始语音信息通过无监督预训练模型wav2vec提取音频特征；进行音频特征分类；基于所述音频特征分类通过自动语音识别asr转换得到文本信息。

可选的，基于文本分类模型TextCNN对所述文本信息进行文本特征分类；计算第一交叉熵值包括：通过文本分类模型TextCNN对所述文本信息进行文本特征分类；基于第一分类函数对分类后的所述文本特征进行分类计算，得到文本特征的分类概率；基于文本特征的分类概率计算得到第一交叉熵值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于合众新能源汽车股份有限公司，未经合众新能源汽车股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202211476158.7/2.html，转载请声明来源钻瓜专利网。

上一篇：空白掩模、空白掩模成膜装置及空白掩模的制造方法
下一篇：一种低碳水生酮椰子油微囊粉的制备方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种多模态意图识别方法、装置、设备及存储介质在审

专利文献下载