[发明专利]基于多模态融合的智能应答方法、装置、机器可读介质及设备在审
申请号: | 202011499081.6 | 申请日: | 2020-12-17 |
公开(公告)号: | CN112527962A | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 苏磊 | 申请(专利权)人: | 云从科技集团股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F16/35;G06F40/211;G06F40/216;G06F40/289;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 李铁 |
地址: | 511457 广东省广州市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多模态 融合 智能 应答 方法 装置 机器 可读 介质 设备 | ||
本发明公开了一种基于多模态融合的智能应答方法,包括:获取人机交互场景下的问答信息,所述问答信息包括图像信息和文本信息;对图像信息和文本信息进行特征提取,得到图像特征信息和文本特征信息;将所述图像特征信息与文本特征信息进行融合,得到融合模态数据信息;对所述融合模态数据信息进行特征提取并对提取的预测文本答句矩阵进行转换,得到目标文本答句。本发明利用多模态的特征在人机交互场景中进行问句答句的预测,有利于信息的完整性、不同模态之间的信息互补以及在后续的生成模型中学习单独模态的信息重要度和模态信息间的关系,并且融合多模态的信息使得人机交互系统能够生成更加完整、流畅的回答,并增加答句的语义丰富度和逻辑性。
技术领域
本发明涉及人工智能领域,具体涉及一种基于多模态融合的智能应答方法、装置、机器可读介质及设备。
背景技术
人机交互系统是自然语言处理领域重要的研究方向之一,人机多轮交互也是图灵测试的核心。当前的人机交互系统局限于语音和文本的交互方式,随着语音助手、智能客服的普及应用,具有视听说的多模态对话系统,在零售、客服、安防、金融、中介、教育等很多领域变得越来越重要。
然而,在人机交互系统中,如何有效的融合多模态信息,更加细致精准的理解用户意图,进而给出准确顺畅的回答,值得研究和解决。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种基于多模态融合的智能应答方法、装置、机器可读介质及设备,用于解决现有技术存在的问题。
为实现上述目的及其他相关目的,本发明提供一种基于多模态融合的智能应答方法,包括:
获取人机交互场景下的问答信息,所述问答信息包括图像信息和文本信息;
对所述图像信息和所述文本信息进行特征提取,得到图像特征信息和文本特征信息;
将所述图像特征信息与所述文本特征信息进行融合,得到融合模态数据信息;
对所述融合模态数据信息进行特征提取并对提取的预测文本答句矩阵进行转换,得到目标文本答句。
可选地,所述文本信息包括时间序列信息、对话角色信息、对话文本信息,相应的所述文本特征信息包括:时间序列特征信息、对话角色特征信息、对话文本特征信息。
可选地,所述将所述图像特征信息与所述文本特征信息进行融合,包括:
将所述图像特征信息转换成图像特征矩阵;
将所述文本特征信息转换成与图像特征矩阵维度相同的文本特征矩阵;
将所述图像特征矩阵与所述文本特征矩阵对应元素相加,得到融合模态数据信息。
可选地,所述将所述图像特征信息转换成图像特征矩阵,包括:
通过预训练的深度卷积神经网络将所述图像特征信息转换为图像特征向量;
若包括一个图像特征向量,则该图像特征向量为图像特征矩阵;
若包括多个图像特征向量,则将所述多个图像特征向量相连形成图像特征矩阵。
可选地,所述将所述文本特征信息转换成与图像特征矩阵维度相同的文本特征矩阵,包括:
对所述文本特征信息进行分词处理,得到时间序列特征信息的分词、对话角色特征信息的分词、对话文本特征信息的分词;
分别通过Embedding将时间序列特征信息的分词、对话角色特征信息的分词、对话文本特征信息的分词转换成词向量;
分别将表示时间序列特征信息的每个词向量、对话角色特征信息的每个词向量、对话文本特征信息的每个词向量相连形成时间序列特征矩阵、对话角色特征矩阵、对话文本特征矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云从科技集团股份有限公司,未经云从科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011499081.6/2.html,转载请声明来源钻瓜专利网。