[发明专利]一种基于图文匹配的智能人机交互方法及装置有效
申请号: | 202110587993.7 | 申请日: | 2021-05-27 |
公开(公告)号: | CN113420783B | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 印二威;谢良;张珺倩;张敬;闫慧炯;罗治国;张亚坤;艾勇保;闫野 | 申请(专利权)人: | 中国人民解放军军事科学院国防科技创新研究院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06V10/75;G06V10/40;G06F40/284;G06F40/30;G06N3/04;G06N3/08;G10L15/26 |
代理公司: | 北京丰浩知识产权代理事务所(普通合伙) 11781 | 代理人: | 李学康 |
地址: | 100071 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 图文 匹配 智能 人机交互 方法 装置 | ||
1.一种基于图文匹配的智能人机交互方法,其特征在于,包括:
S1语音识别:收集用户的语音信息,采用模板匹配语音识别算法将所述语音信息转为文字序列;其中所述模板匹配采用动态时间规整技术进行特征训练和识别,采用隐马尔可夫模型对语音信号的时间序列结构建立统计模型,采用矢量量化技术进行信号压缩;
S2图像识别:获取真实环境中的大量初始图像,记为初始图像组;对所述初始图像组数据进行裁剪和归一化预处理,选取质量合格的图像作为合格原始图像;所述合格原始图像中包含多个实体目标;
S3提取图文特征:采用深度卷积神经网络对所述合格原始图像数据提取自然图像特征,所述自然图像特征包括但不限于目标特征、多目标定位、全局特征,分别对应于所述多个实体目标中每一个实体目标的主体特征、关系特征、全局位置特征;对所述文字序列提取第一目标特征,所述第一目标特征包括但不限于主体特征、关系特征、全局位置特征;
S4图文匹配:将所述自然图像特征与所述第一目标特征进行匹配计算,其中分别对所述多个实体目标中每一个实体目标的主体特征、关系特征、全局位置特征,与所述第一目标特征的主体特征、关系特征、全局位置特征分别进行匹配度计算;所述匹配度计算得到的匹配结果为所述第一目标特征对所述合格原始图像中各实体目标的匹配程度,获取匹配度最大的所述实体目标在所述合格原始图像中的位置为所述图文匹配结果。
2.根据权利要求1所述的基于图文匹配的智能人机交互方法,其特征在于,所述深度卷积神经网络由输入层、卷积层、激活函数、池化层、全连接层和输出层组成;所述卷积层采用二维卷积核在特征图中进行滑动卷积操作,用于深度特征提取;所述激活函数用于引入非线性因素,在训练过程中避免梯度消失;所述池化层于压缩数据和参数的数量,保留主要的特征同时减少参数和计算量;所述全连接层对特征进行降维,用于将分布式特征表示映射到样本标记空间。
3.根据权利要求1所述的基于图文匹配的智能人机交互方法,其特征在于,对所述文字序列提取所述第一目标特征包括步骤:
语言模型:使用基于预测的方法,将所述文字序列用向量的形式表示,生成嵌入式表达信息;
语义提取:采用双向长短期记忆人工神经网络对所述嵌入式表达信息进行特征表达,形成特征表达信息;
特征提取:采用自注意力机制结合可训练的权重参数,基于所述特征表达信息,提取所述语音信息所指向目标的主体特征、关系特征、全局位置特征为所述第一目标特征。
4.根据权利要求1所述的基于图文匹配的智能人机交互方法,其特征在于,所述匹配计算由多层感知计算、归一化计算、相关性计算构成;其中:多层感知计算是全连接的人工神经网络,能够进行参数学习与特征提取,用于进一步提取所述各实体目标特征及所述第一目标特征并将各图文特征统一至同一维度空间;归一化计算将所述图文特征分别作归一化计算;相关性计算将所述多个实体目标中每一个实体目标的主体特征、关系特征、全局位置特征分别与所述第一目标特征进行内积计算,获取相关性得分,根据所述相关性得分计算所述多个实体目标中每一个实体目标分别与所述第一目标特征的所述匹配结果。
5.根据权利要求1所述的基于图文匹配的智能人机交互方法,其特征在于,所述匹配度最大的所述实体目标在所述合格原始图像中的位置包括坐标参数及包围框参数,所述坐标位于包围框内部。
6.根据权利要求5所述的基于图文匹配的智能人机交互方法,其特征在于,将所述图文匹配结果还原至所述合格原始图像中,并转换为结构化指令信号给机器,所述结构化指令信号用于使所述机器执行所述语音指令。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军军事科学院国防科技创新研究院,未经中国人民解放军军事科学院国防科技创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110587993.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于头部时序信号校正的眼动交互方法及装置
- 下一篇:排水管网的监测方法