[发明专利]基于视觉识别和语音识别的人与大屏多模态自然交互方法在审

申请号：	201910946153.8	申请日：	2019-10-03
公开（公告）号：	CN112612358A	公开（公告）日：	2021-04-06
发明（设计）人：	丁建华	申请（专利权）人：	丁建华
主分类号：	G06F3/01	分类号：	G06F3/01;G06F3/0481;G06F3/0484;G06F3/16;G06K9/00
代理公司：	暂无信息	代理人：	暂无信息
地址：	100013 北京市东***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于视觉识别语音大屏多模态自然交互方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种基于视觉识别和语音识别的人与大屏多模态自然交互方法。所述方法的工作原理包括：图像感知模块、图像识别模块、图像分析模块；声音感知模块、语音识别模块、语音分析模块；交互窗口模块、交互位置模块、交互命模块；视频信号源、视频交互矩阵、显示大屏。系统通过感知、识别、分析用户的手指（或手臂）的动作以及语音信息，结合系统预设的交互初始位置、动作交互指令和语音交互指令信息，获得人与大屏上的显示内容进行交互时所需的交互位置和交互指令信息，生成交互命令，驱动视频信号源设备和视频交互矩阵输出相应显示内容的视频信号，在大屏上进行显示，从而实现人与大屏的2维或3维空间的复杂显示内容的多模态自然交互。

技术领域

本发明涉及人机交互中的人与大屏幕自然交互技术领域，提供了一种基于视觉识别和语音识别的人与大屏多模态自然交互方法。

背景技术

目前市场上有几种面对大屏上的显示内容进行直接交互的方法，如面对大屏的笔触、教鞭触控、遥控交互等，大多需要手中借助特制的交互工具，如交互笔、交互教鞭、交互遥控器等，进行操作，不能做到完全的人与大屏的自然交互。如采用手进行的手触、采用交互笔进行的笔触、采用交互教鞭进行的教鞭触控，由于操作者需要站在离大屏很近的地方进行操作，当屏幕很大时，使用者看屏幕非常不方便，并存在很多够不到的交互盲区；如采用遥控交互方式，虽然可以离开屏幕一段距离进行交互，但是如果遥控器上的功能键较少，则很多复杂交互功能无法实现；如果遥控器上的功能键很多，由于遥控器上的空间很小，则会出现操作非常不便的问题，从而影响到体验效果和交互速度；采用体感交互的方式，由于目前的体感技术还不够完善，只能实现少数简单的手势动作交互，且无法对大屏上的交互内容进行定位，因此也无法满足对大屏多信号源多种内容格式的复杂交互需求。且现有交互方法只能实现对大屏上的平面显示内容的交互，无法实现对三维显示内容的立体交互。

发明内容

为解决上述问题，本发明提供了一种基于视觉识别和语音识别的人与大屏多模态自然交互方法，用户不需要借助任何交互工具，只需要凭借手指、手臂动作和语音等人类进行交流的自然语言，即可与显示大屏上的复杂显示内容进行2维或三维空间的自然交互。

所述方法的系统工作流程如图1所示，主要包括：光学感知模块，通过实时光学图像获取场景产生的2D或3D视觉信息；图像识别模块，从所获视觉信息中提取用户的手指和手臂的2D或3D位置和运动信息；图像分析模块，根据系统预设的信号源光标初始位置信息库和动作交互指令库模型，从所述用户的手指和手臂的2D或3D位置和运动信息中提取人与大屏上的显示内容进行交互时产生的交互位置信息和动作交互指令信息；声音感知模块，通过麦克风阵列获取场景的声音信息；语音识别模块，通过所述声音信息提取用户的语音文字信息；语音分析模块，根据系统预设的语音交互指令模型库，从所述语音文字信息中提取用户的语音交互指令信息；窗口交互模块，从所述的动作交互指令或语音交互指令中获取交互窗口信息（指具体某个大屏信号显示窗口）、交互窗口指令信息（指大屏信号显示窗口的放大、缩小、漫游、切换、打开或关闭等）、和光标的初始位置信息；交互位置模块，根据用户手指或手臂的移动和大屏上的光标的初始位置，确定光标的交互位置信息；交互命令模块：根据光标的交互位置信息、动作交互指令或语音交互指令，生成交互命令信息，用来驱动视频信号源设备改变显示内容，或驱动视频交互矩阵改变视频信号的输出方式；视频信号源：用来输出需要显示的视频信号；视频交互矩阵，根据交互命令将视频信号源的视频信号发给显示大屏；显示大屏，显示视频交互矩阵传来的多路视频信号。

本发明采用视觉识别和语音识别相结合的方式，同时根据这两种交互方式的特点，设计了许多定制性的方案，可以有效解决现有单纯体感交互方式中存在的无法对交互位置定位，以及功能简单、无法实现对复杂内容的交互的缺点，同时可以远离屏幕，使用者不需要携带任何交互工具，就可以徒手实现对大屏多信号源复杂显示内容的自然交互功能。

特别地，本发明可以克服现有非自然交互模式的缺点和不足，只需要凭借手指、手臂动作和语音等人类自然交流语言，即可实现与显示大屏上的复杂显示内容进行2维或三维空间的多模态自然交互。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于丁建华，未经丁建华许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910946153.8/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F3-00 用于将所要处理的数据转变成为计算机能够处理的形式的输入装置；用于将数据从处理机传送到输出设备的输出装置，例如，接口装置
G06F3-01 .用于用户和计算机之间交互的输入装置或输入和输出组合装置
G06F3-05 .在规定的时间间隔上，利用模拟量取样的数字输入
G06F3-06 .来自记录载体的数字输入，或者到记录载体上去的数字输出
G06F3-09 .到打字机上去的数字输出
G06F3-12 .到打印装置上去的数字输出

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于视觉识别和语音识别的人与大屏多模态自然交互方法在审

专利文献下载