[发明专利]一种基于图文匹配的智能人机交互方法及装置有效

申请号：	202110587993.7	申请日：	2021-05-27
公开（公告）号：	CN113420783B	公开（公告）日：	2022-04-08
发明（设计）人：	印二威;谢良;张珺倩;张敬;闫慧炯;罗治国;张亚坤;艾勇保;闫野	申请（专利权）人：	中国人民解放军军事科学院国防科技创新研究院
主分类号：	G06K9/62	分类号：	G06K9/62;G06V10/75;G06V10/40;G06F40/284;G06F40/30;G06N3/04;G06N3/08;G10L15/26
代理公司：	北京丰浩知识产权代理事务所(普通合伙) 11781	代理人：	李学康
地址：	100071 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于图文匹配智能人机交互方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于图文匹配的智能人机交互方法及装置，属于计算机视觉领域。所述方法包括：收集用户的语音信息转为文字序列，使用自然语言处理技术提取文字序列中的目标特征；采集真实环境图像，并采用深度卷积神经网络对所述原始图像数据提取自然图像特征；对原始图像中的各个目标与文字序列中的目标分别进行匹配度计算，取匹配度最大的图像中目标为匹配结果，并转化为机器指令。该发明结合计算机视觉技术与自然语言处理技术实现复杂命令与真实图像的匹配，能够根据一条自然语言表达指令，自动定位图像中的相关实体目标，使得交互过程更加自然，能够应用于助残机器人、救援机器人、特种机器人等广泛场景。

技术领域

本发明涉及计算机视觉领域，特别是涉及一种基于图文匹配的智能人机交互方法及装置。

背景技术

随着计算机与机器人的智能化程度越来越高，机器已经能够辅助人类完成涉及医疗、工业生产、娱乐休闲、家庭服务、特种服务等各个领域下的复杂任务。广泛的应用场景对传统的人机交互系统提出了更高的要求，尤其是智能机器如何与人更好地进行交互和协同。人机交互的目的是，结合人类和机器各自的优势从而更好地完成复杂的人机协同任务，其最终目标是实现人类和机器在应用场景中的自然互融。然而，目前人机交互局限于单一模态的命令交互或者直接接触式的交互方式，交互效率低，大大影响其系统性能和用户体验。

语言和视觉信息在人类交流中有着密切的联系，在我们的社交和专业交流中经常进行文本指代与图像目标的匹配任务。而人机交流中同样需要类似的跨模态匹配方法。具体来说，一幅场景图像通常包含多个目标实体，为了匹配文本指令中所指的目标实体在图像中的具体位置，需要一种自然语言与图像的匹配方法，连接视觉与文本信息。

发明内容

有鉴于此，本发明提供的一种基于图文匹配的智能人机交互方法及装置，该方法结合计算机视觉技术与自然语言处理技术进行跨模态图文匹配，能够根据一条自然语言表达指令，自动定位图像中的相关实体目标。主要目的在于解决现有技术中人机交互局限于单一模态的命令交互或者直接接触式的交互方式，交互效率低的问题。

根据本发明一个方面，提供了一种基于图文匹配的智能人机交互方法，该方法包括步骤：S1语音识别：收集用户的语音信息，采用模板匹配语音识别算法将所述语音信息转为文字序列；其中所述模板匹配采用动态时间规整技术进行特征训练和识别，采用隐马尔可夫模型对语音信号的时间序列结构建立统计模型，采用矢量量化技术进行信号压缩；S2图像识别：获取真实环境中的大量初始图像，记为初始图像组；对所述初始图像组数据进行裁剪和归一化预处理，去除重影、模糊等质量较差的图像，选取质量合格的图像作为合格原始图像；所述合格原始图像中包含多个实体目标；S3提取图文特征：采用深度卷积神经网络对所述合格原始图像数据提取自然图像特征，所述自然图像特征包括但不限于目标特征、多目标定位、全局特征，分别对应于所述多个实体目标中每一个实体目标的主体特征、关系特征、全局位置特征；对所述文字序列提取第一目标特征，所述第一目标特征包括但不限于主体特征、关系特征、全局位置特征；S4图文匹配：将所述自然图像特征与所述第一目标特征进行匹配计算，其中分别对所述多个实体目标中每一个实体目标的主体特征、关系特征、全局位置特征，与所述第一目标特征的主体特征、关系特征、全局位置特征分别进行匹配度计算；所述匹配度计算得到的匹配结果为所述第一目标特征对所述合格原始图像中各实体目标的匹配程度，获取匹配度最大的所述实体目标在所述合格原始图像中的位置为所述图文匹配结果。

作为本发明的进一步改进，所述深度卷积神经网络由输入层、卷积层、激活函数、池化层、全连接层和输出层组成；所述卷积层采用二维卷积核在特征图中进行滑动卷积操作，用于深度特征提取；所述激活函数用于引入非线性因素，在训练过程中避免梯度消失；所述池化层于压缩数据和参数的数量，保留主要的特征同时减少参数和计算量；所述全连接层对特征进行降维，用于将分布式特征表示映射到样本标记空间。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民解放军军事科学院国防科技创新研究院，未经中国人民解放军军事科学院国防科技创新研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110587993.7/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于头部时序信号校正的眼动交互方法及装置
下一篇：排水管网的监测方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于图文匹配的智能人机交互方法及装置有效

专利文献下载