[发明专利]一种视频字幕的提取方法及装置有效

申请号：	201210297750.0	申请日：	2012-08-21
公开（公告）号：	CN102915438B	公开（公告）日：	2016-11-23
发明（设计）人：	苏鹏宇;肖炳珠	申请（专利权）人：	北京捷成世纪科技股份有限公司
主分类号：	G06K9/20	分类号：	G06K9/20;G06K9/54
代理公司：	暂无信息	代理人：	暂无信息
地址：	100191 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种视频字幕提取方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及图像处理领域，尤其涉及一种视频字幕的提取方法及装置。

背景技术

随着数字化网络化的发展，数字图像和视频越来愈多。由于图片或视频中的文字能够提供直接的语义信息，因此，对文字进行检测有助于理解和管理视频图像。比如，检测和分析图片中文字内容，有助于为不良内容图片过滤和监控提供有效的特征；新闻视频中的标题通常标示的时间地点人物为新闻内容分析和检索提供了支撑，体育比赛视频中出现的比分、运动员号码等为视频内容的自动分析、瞬间检测具有重要作用。同样，自然场景中的图像也包含重要的文字信息，如对交通指示牌的内容进行分析可帮助外国游客理解中国的交通规则，通过文字转为语音可以帮助盲人在街道无障碍行走等，因此，对图片中的文字进行识别后检索一直都是非常具有意义和挑战性的工作。

由于视频或图像中的文字识别存在很多难点，比如，视频或图像的背景比较复杂时，对文字的检测和识别都比较困难。在实际拍摄视频或图像时，摄像机的位置姿态或者物体反光等原因会造成图片中的文字发生畸变，同样会影响检测和识别。

发明内容

本发明的实施例提供了一种视频字幕的提取方法及装置，通过从图像增强后的各图像帧中定位文字区域，并以颜色聚类的方式提取文字区域中的文字后识别，不受文字区域中复杂背景的影响，提高了文字检测的识别率。

为达到上述目的，采用如下技术方案：

一种视频字幕的提取方法，包括如下步骤：

抽取视频中的图像帧，将各图像帧进行叠加平均，则得到边缘强度图；

在各边缘强度图中逐点扫描，统计边缘强度图中的笔画强度，并基于笔画强度将图像帧进行二值化；

分析所述二值图中的连通域，从图像帧中定位出对应的文字区域；

在文字区域中拟合各颜色通道进行颜色聚类后滤波，从而按得到的类别在含有字幕的文字区域中提取对应的文字；

将所述文字进行OCR识别，得到视频中的字幕。

优选的，所述统计边缘强度图中的笔画强度时，统计边缘强度图中每个像素点的边缘强度值，得到图像帧对应的笔画强度图。

优选的，所述分析所述二值图中的连通域时，对所述二值图分别进行水平投影和垂直投影，选取长宽比在0.1至4.5之间的连通域作为文字区域。