[发明专利]一种视频中的文本跟踪和多帧增强方法无效

申请号：	200810101653.3	申请日：	2008-03-10
公开（公告）号：	CN101276416A	公开（公告）日：	2008-10-01
发明（设计）人：	朱成军;李超;秦思思;熊璋	申请（专利权）人：	北京航空航天大学
主分类号：	G06K9/32	分类号：	G06K9/32;G06K9/72;G06T5/20
代理公司：	北京科迪生专利代理有限责任公司	代理人：	贾玉忠;卢纪
地址：	100083***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种视频中的文本跟踪增强方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

发明领域

本发明涉及基于内容的多媒体检索技术领域，更具体地，本发明涉及视频中的文本识别。本发明利用视频场景中的文本行在多帧之间具有大量的互补信息的特点，提出了一种视频中的文本跟踪和多帧增强方法。本发明的方法可以消除背景，提高视频文本的光学字符软件(OCR，Optical Character Recognition)识别率。

发明背景

视频中的文本提供了和视频内容高度相关的信息，比如场景地点、事件时间，以及体育比赛中的比分、运动员姓名等信息，但是相对于文档图像中的文本，视频中的文本识别面临以下难点：(1)由于电视制式、视频传输和存储的原因，视频图像分辨率较低；(2)视频中的文本往往叠加在视频场景中。由于大多数商用光学字符识别(OCR，Optical Character Recognition)软件只能处理具有干净背景的二值图像，所以在检测到视频中的文本区域以后，还必须将文本和背景分离开来，得到具有干净背景的文本图像，然后才能进行OCR识别。关于图像二值化，已经有了很多的相关工作，但是这些方法并不适用于视频文本的二值化操作。

综合起来，视频文本区域在时域具有以下特点：(1)同一文本会持续几十帧甚至几百帧；(2)当文本有运动时，呈现水平或者垂直的线型运动；(3)文字的生存期，文字像素颜色保持不变，背景像素颜色可能具有很大的变化。

所以，如果能将多帧的文本区域信息综合起来，生成新的文本图像，动态变换的背景像素会被削弱，有利于文本的进一步识别。

视频中文本的运动总体来说可以分为两类：刚性运动和非刚性运动。刚性运动是指文本在运动过程中没有缩放、扭曲等艺术效果，整个运动周期过程中文本的尺寸没有发生变化，固定不变；非刚性运动与刚性运动相反，文本在运动过程中具有缩放、淡入淡出、扭曲等形式。对于具有非刚性运动的视频文本，由于在运动过程中文本尺寸发生了变化，同时可能具有多种艺术表现形式，导致文本在空域中的几何属性发生了改变。所以，在非刚性运动情况下，文本行在多帧的不同表现形式对于消除背景，增强文本并没有太大的意义。同时，视频中的文本，比如新闻和电影视频中的文本，统计可以发现，大部分都是刚性运动，所以本发明的方法只考虑文本具有刚性运动情形时的文本跟踪和增强问题。

近些年，在视频文本自动追踪领域主要有两种常用的技术：基于SSD(Sum of SquaredDifference)的跟踪方法和基于M估计模板匹配的追踪方法。在“Text Enhancement in Digital VideoUsing Multiple Frame Integration.Proceedings of ACM Multimedia[C]，Orlando FL，USA，1999：19～22”中，Huiping Li.公开了一种利用基于SSD跟踪文本，利用多帧信息增强文本的方法，而在博士论文“视频文本的提取.杭州：浙江大学，2006”中，章东平公开了一种基于M估计模板匹配的追踪方法。然而，无论是基于SSD或者是M估计模板匹配的方法，当文本位于运动背景或者文本颜色具有变化效果的时候，跟踪效果都不是很理想，这是由两种方法本身的匹配规则说决定的。文本行区域在整个运动周期期间，文本像素颜色本身也可能会发生变化，比如文本像素颜色具有同一个色调，但是饱和度或者亮度会发生渐进改变。此时，基于SSD的方法会在匹配时产生较大的匹配值，最终不能正确跟踪文本在相邻帧的位置。另外，基于M估计模板匹配的方法本身计算复杂度较高，虽说可以追踪具有平移、缩小、放大、旋转、淡入淡出和部分被遮挡的水平或倾斜排列文本，但是追踪文本在相邻帧的位置主要是用于多帧增强文本质量，利用文本区域的时域特征消除背景，而当文本被遮挡或者缩小放大时，追踪到的文本行文本像素本身的空域信息已经变得不完整，对于提高文本的质量，获得高质量的文本二值图像没有太大的意义。所以，本发明提出了一种新的并能适应文本具有变化背景、文本像素颜色不一致时的文本跟踪和多帧增强算法

中国发明专利00807661.8公开了一种“文本增强的方法”，该方法根据空域信息增强文本质量，和本文基于时域增强文本的思路具有较大差异。

发明内容

本发明要解决的问题：克服现有技术的不足，提供一种利用多帧互补信息增强视频文本的方法，该方法即使在文本具有运动背景时也具有更好的跟踪效果，显著提高了OCR软件对视频文本的识别准确率。

本发明的技术解决方案：一种视频中的文本跟踪和多帧增强方法，包括以下步骤：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京航空航天大学，未经北京航空航天大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200810101653.3/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种视频中的文本跟踪和多帧增强方法无效

专利文献下载