[发明专利]安卓平台上基于ROI运动检测的视频实时定位方法有效

专利信息
申请号: 201310219683.5 申请日: 2013-06-03
公开(公告)号: CN103295238A 公开(公告)日: 2013-09-11
发明(设计)人: 顾韵华;陈培培;张俊勇;高宝;朱节中 申请(专利权)人: 南京信息工程大学
主分类号: G06T7/00 分类号: G06T7/00
代理公司: 南京众联专利代理有限公司 32206 代理人: 顾进
地址: 210019 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 平台 基于 roi 运动 检测 视频 实时 定位 方法
【说明书】:

技术领域

发明属于图像处理技术领域,涉及一种视频实时定位方法,更为具体地说,是涉及一种应用于安卓平台的基于ROI运动检测的视频实时定位方法。

背景技术

随着3G时代的到来,移动终端设备在近年来得到了高速发展,各类智能终端操作系统也随之应运而生,安卓(Android)操作系统便是其中一个。安卓作为第一个完整、开放、免费的手机平台,迅速占领了智能手机操作系统的市场占有率。基于安卓系统,大批应用型软件层出不穷。

用户利用移动设备能够方便快捷的拍摄自然场景中的数字化图像。自然场景中的图像和其他人造结构一样,包含着重要的文字信息,对于帮助人们获取和理解自然场景中的内容具有重要意义。为了便于浏览、管理和理解图像或视频所包含的内容,就需要对拍摄的数字图像进行处理和深入的理解,从而推动了人们对于数字化视频、图像内容的分析和研究,字符识别便是其中的一种。在自然场景中检测识别文字行能满足如盲人(将文字检测识别为语音)、司机(检测交通指示牌内容)等特殊需求,具有很高的研究价值。而在字符识别过程中,如何进行字符的准确定位则是最为关键的基础步骤。

安卓系统中目前出现了一些针对一维和二维条形码的字符识别程序,由于在实际应用中,应用安卓系统的移动设备一般由用户手持,因此通常处于移动当中,现有的字符识别程序在进行识别时,需要对字符进行重新定位,而移动设备的移动幅度往往很小,仅仅是轻微的抖动,如果对每一帧图像中的字符进行重新定位的话,会浪费不少运算资源,大大降低字符实时定位的速度。

发明内容

为解决上述问题,本发明公开了一种安卓平台上基于ROI运动检测的视频实时定位方法,运用图像处理算法对设备捕获的视频进行实时数据转换和图像预处理,再结合基于ROI运动检测算法,计算移动设备的移动幅度,对于移动幅度较小的视频帧略去重复字符定位的过程,在保证字符定位准确率的前提下,提高了字符实时定位的效率。

为了达到上述目的,本发明提供如下技术方案:

一种安卓平台上基于ROI运动检测的视频实时定位方法,包括如下步骤:

步骤10:将原始YUV420格式视频数据流通过YUV与RGB的实时转换算法,转化成RGB格式的视频帧图像;

步骤20:对所述RGB格式的视频帧图像进行预处理,所述预处理过程包括灰度化、二值化和边缘检测处理;

步骤30:采用ROI运动检测方法对每一帧图像进行检测,计算相邻帧状态的变化来跟踪设备的移动幅度,当相邻帧之间运动幅度不大时,沿用前一帧的字符定位结果;当相邻帧之间运动幅度较大时,对后一帧重新进行字符定位。

作为本发明的一种优选方案,所述步骤20中,灰度化方法采用加权平均值法,二值化方法采用OSTU方法计算二值化阈值,所述边缘检测采用Canny边缘检测算法。

作为本发明的一种优选方案,所述ROI运动检测方法包括如下步骤:

步骤301:对初始帧进行字符区域定位,定位的结果区域的位置信息记为第二帧的感兴趣区域的位置信息;

步骤302:分别计算相邻帧感兴趣区域的信息量,并计算相邻帧感兴趣区域的信息量差值的绝对值;

步骤303:当步骤302中信息量差值大于信息差阈值时,对该帧视频进行重新字符定位,当信息量差值不大于信息差阈值时,则沿用前一帧字符定位结果;继续执行步骤302。

作为本发明的一种优选方案,所述对字符进行定位的过程包括如下步骤:

步骤401:对需要进行定位的边缘检测结果进行形态学膨胀处理;

步骤402:对401步骤处理后的图像中的连通域根据预先设定的筛选规则进行筛选,获得字符区域信息,并在二值化图像中对筛选出的连通域的最大外接矩形的位置进行切割,得到字符定位切割的结果。

作为本发明的一种优选方案,所述信息量为黑色像素值,具体的计算方法为:在二值图像点阵中扫描感兴趣区域,累加灰度值为0的点数。

与现有技术相比,本发明提供的基于ROI运动检测的视频实时字符定位方法,利用视频帧之间相似性和连续性的特点,对视频相邻帧感兴趣区域计算信息量变化,进行运动检测,略去相同字符的重复定位过程,对字符定位的效率具有显著提高。此外,本发明针对Android移动设备处理能力的局限性,用Android本地开发框架将复杂的图像处理过程用本地语言C++实现,提高了程序运行的效率。相对于单纯使用Java语言编写和每帧视频都作定位处理的方法,可以有效提高定位的实时性,特别适合处理简单场景下的印刷体多字符定位。

附图说明

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310219683.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top