[发明专利]一种利用边缘特征的视频文本增强方法无效
申请号: | 200810101586.5 | 申请日: | 2008-03-07 |
公开(公告)号: | CN101276461A | 公开(公告)日: | 2008-10-01 |
发明(设计)人: | 朱成军;李超;刘伟;熊璋 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06T3/40 | 分类号: | G06T3/40;G06T5/20 |
代理公司: | 北京科迪生专利代理有限责任公司 | 代理人: | 贾玉忠;卢纪 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 边缘 特征 视频 文本 增强 方法 | ||
技术领域
本发明涉及视频中的文本识别,特别是一种利用边缘特征的视频文本增强方法,属于多媒体检索技术和数字图像处理领域。
背景技术
视频中的文本提供了和视频内容高度相关的信息,比如场景地点、事件时间,以及体育比赛中的比分、运动员姓名等信息,但是相对于文档图像中的文本,视频中的文本识别面临以下难点:(1)由于电视制式、视频传输和存储的原因,视频图像分辨率较低;(2)视频中的文本往往叠加在视频场景中。由于大多数商用光学字符识别(OCR,Optical Character Recognition)软件只能处理具有干净背景的二值图像,所以在检测到视频中的文本区域以后,还必须将文本和背景分离开来,得到具有干净背景的文本图像,然后才能进行OCR识别。关于图像二值化,已经有了很多的相关工作,但是这些方法并不适用于视频文本的二值化操作。
在“Victor Wu,Raghavan Manmatha,Edward M.Riseman.TextFinder:an Automatic System toDetect and Recognize Text in Image.IEEE Trans.Pattern anal.Machine Intelllgence,1999,V21(11):1224-1229”中,Wu等人公开了一种利用局部阈值的方法分割图片中的文字的方法,由于灰度图并不能反映彩色图像的边缘信息,且其采用的灰度直方图可能会具有多个波谷,该方法对于稍微复杂的背景效果不理想。
在“C.M Tsai and H.J Lee.Binarization of Color Document Images via Luminance and SaturationColorFeatures.IEEE Trans.on Image Processing,2002,V11(4),2002”中,Tsai等人公开了一种基于阈值的方法对图像中的文本进行分割的方法,其方法中采用了强度和饱和度两种特征,然而接近黑色和白色时,饱和度值跳度较大,而文本像素的颜色大都是白色的,同时由于解压缩的影响,文本像素的颜色往往会具有一定的渐变。所以该方法只是在高质量视频文本的分割中有效,不能适应文本颜色具有较渐变的情况。
在“Qixiang Ye,Wen Gao,Qingming Huang,Automatic text segmentation from complexbackground,IEEE International Conference on Image Processing(ICIP 2004),Singapore,Oct.24-27,2004,pp:2905-2908”中,Ye等人公开了一种基于采样规则获得文字像素并训练建立混合高斯模型,最后使用建立的混合高斯模型和文字笔画的空域连接性综合在一起分割所有文字像素的方法。但是视频中的像素颜色组合具有很多的变化,该混合高斯模型并不能完全预测,对于不同的测试图片集合,还需要对模型进行重新训练。
中国专利申请00807661.8公开了一种“文本增强”的方法,该方法并没有涉及如何将视频中检测到的文本如何从复杂的背景中分离出来。
发明内容
本发明的技术解决问题:本发明能解决视频中的文本存在以下情况时的背景分离问题:(1)文本像素颜色不一致,具有渐变性;(2)背景中存在和文本像素颜色值类似的区域。本发明的思路是事先根据边缘处的颜色信息估计出文本像素颜色的渐变范围以及背景像素的颜色值分布情况,分别统计其平均值和方差作为分割种子点和分割半径,最终将文本从文本图像中分割出来。分割后的文本图像具有干净的背景,能显著提高视频中文本的OCR识别率。
本发明的技术解决方案:一种基于边缘采样的视频文本增强方法,包括以下步骤:
(1)利用文本检测方法检测视频帧中出现的文本区域,记为文本图像f;
(2)对文本图像f进行颜色降维操作,其RGB通道值以8bit的高4位bit来代替;
(3)利用彩色空间的梯度算子计算文本图像f的梯度图;
(4)将梯度图的相对高频部分作为边缘,将边缘像素对应的文本图像f的RGB值作为种子点,得到种子点集合P,对于采样点集合P中的每一个元素pi,pi=(ri,gi,bi)是一个三维矢量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810101586.5/2.html,转载请声明来源钻瓜专利网。