[发明专利]一种基于音视频识别的智能显示方法及其装置在审
申请号: | 201910296455.5 | 申请日: | 2019-04-13 |
公开(公告)号: | CN110021297A | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 倪雪平;尹大海;金文俊;倪末萍 | 申请(专利权)人: | 上海影隆光电有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L21/055;G06K9/00 |
代理公司: | 北京维正专利代理有限公司 11508 | 代理人: | 谢绪宁;薛赟 |
地址: | 201800 上海市嘉定*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图像数据 位置坐标 标记符号 图像目标 音频目标 音频数据 智能显示 音视频 采集图像数据 图像目标识别 显示图像数据 交互显示 匹配成功 显示图像 准确率 匹配 | ||
本发明涉及交互显示技术领域,公开了一种基于音视频识别的智能显示方法及其装置,方法包括:采集图像数据与音频数据;从图像数据中识别出图像目标及其在图像数据中的位置坐标;根据位置坐标识别图像目标所属的局部动作;从音频数据中识别出音频目标以及音频目标所属的局部音频;匹配局部动作与局部音频;若匹配成功,则根据位置坐标在图像数据中添加标记符号;显示图像数据;判断局部动作与局部音频动作是否对应,若对应,则代表图像目标识别正确,然后显示带有标记符号的图像数据,控制了位置坐标的准确率处于高的水平,用户能同时使用动作以及声音参与控制或者改变显示图像内容。
技术领域
本发明涉及交互显示技术领域,更具体地说,它涉及一种基于音视频识别的智能显示方法及其装置。
背景技术
随着显示屏交互技术的发展,在LED屏上加装摄像头,摄像头拍摄LED屏前的视频图像,LED屏显示摄像头拍到的画面。
在实现交互后,摄像头连接有读取视频图像的计算模块,计算模块可为移动工作站,计算模块通过模板匹配法初步识别出视频图像中的人脸图像,并标记人脸图像在视频图像中的位置,计算模块将位置发送至LED屏,LED屏显示出位置,让观察LED屏的人员能够知晓自己脸部所处的方位,实现初步的互动。
但是,现有技术中没有加入音频对交互的参与,用户无法同时使用自己动作与声音参与改变LED屏上图像的操作。
发明内容
针对现有的技术问题,本发明的目的一在于提供一种基于音视频识别的智能显示方法,其具有用户能同时使用动作以及声音参与控制或者改变显示图像内容的优点;本发明的目的二在于提供一种基于音视频识别的智能显示装置,其具有用户能同时使用动作以及声音参与控制或者改变显示图像内容的优点。
为实现上述目的一,本发明提供了如下技术方案:
一种基于音视频识别的智能显示方法,包括如下步骤:
采集图像数据与音频数据;
从图像数据中识别出图像目标及其在图像数据中的位置坐标;
根据位置坐标识别图像目标所属的局部动作;
从音频数据中识别出音频目标以及音频目标所属的局部音频;
匹配局部动作与局部音频;
若匹配成功,则根据位置坐标在图像数据中添加标记符号;
显示带有标记符号的图像数据。
通过上述技术方案,先从图像数据中识别出图像目标的位置坐标,然后在位置坐标的基础识别出图像目标的局部动作,判断局部动作与局部音频动作是否对应,若对应,则代表图像目标识别正确,然后显示带有标记符号的图像数据,控制了位置坐标的准确率处于高的水平;局部动作可为嘴部动作,与嘴部动作对应的局部音频为说出的语音;局部动作可为手势,与手势对应的局部音频为风声,用户能同时使用动作以及声音参与控制或者改变显示图像内容。
进一步的,还包括:
建立预设有多个控制释义的音频解释库;
对应控制释义于图像数据或者显示属性;
识别出局部音频中的控制释义;
根据局部音频中的控制释义改变图像数据的控制释义;
或,根据局部音频中的控制释义改变显示属性的控制释义。
通过上述技术方案,控制释义可为多个具有控制含义的词语,例如“上一项”、“下一项”或者“增加屏幕亮度”等,若识别出“上一项”,则显示下一个图像数据或者下一个图像目标,若识别出“增加屏幕亮度”,则增加显示屏幕的亮度。
进一步的,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海影隆光电有限公司,未经上海影隆光电有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910296455.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种晾衣设备智能人机交互方法及系统
- 下一篇:一种汽车语音控制系统