[发明专利]一种视频字幕的提取方法及装置有效
申请号: | 201210297750.0 | 申请日: | 2012-08-21 |
公开(公告)号: | CN102915438B | 公开(公告)日: | 2016-11-23 |
发明(设计)人: | 苏鹏宇;肖炳珠 | 申请(专利权)人: | 北京捷成世纪科技股份有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/54 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100191 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 字幕 提取 方法 装置 | ||
技术领域
本发明涉及图像处理领域,尤其涉及一种视频字幕的提取方法及装置。
背景技术
随着数字化网络化的发展,数字图像和视频越来愈多。由于图片或视频中的文字能够提供直接的语义信息,因此,对文字进行检测有助于理解和管理视频图像。比如,检测和分析图片中文字内容,有助于为不良内容图片过滤和监控提供有效的特征;新闻视频中的标题通常标示的时间地点人物为新闻内容分析和检索提供了支撑,体育比赛视频中出现的比分、运动员号码等为视频内容的自动分析、瞬间检测具有重要作用。同样,自然场景中的图像也包含重要的文字信息,如对交通指示牌的内容进行分析可帮助外国游客理解中国的交通规则,通过文字转为语音可以帮助盲人在街道无障碍行走等,因此,对图片中的文字进行识别后检索一直都是非常具有意义和挑战性的工作。
由于视频或图像中的文字识别存在很多难点,比如,视频或图像的背景比较复杂时,对文字的检测和识别都比较困难。在实际拍摄视频或图像时,摄像机的位置姿态或者物体反光等原因会造成图片中的文字发生畸变,同样会影响检测和识别。
发明内容
本发明的实施例提供了一种视频字幕的提取方法及装置,通过从图像增强后的各图像帧中定位文字区域,并以颜色聚类的方式提取文字区域中的文字后识别,不受文字区域中复杂背景的影响,提高了文字检测的识别率。
为达到上述目的,采用如下技术方案:
一种视频字幕的提取方法,包括如下步骤:
抽取视频中的图像帧,将各图像帧进行叠加平均,则得到边缘强度图;
在各边缘强度图中逐点扫描,统计边缘强度图中的笔画强度,并基于笔画强度将图像帧进行二值化;
分析所述二值图中的连通域,从图像帧中定位出对应的文字区域;
在文字区域中拟合各颜色通道进行颜色聚类后滤波,从而按得到的类别在含有字幕的文字区域中提取对应的文字;
将所述文字进行OCR识别,得到视频中的字幕。
优选的,所述统计边缘强度图中的笔画强度时,统计边缘强度图中每个像素点的边缘强度值,得到图像帧对应的笔画强度图。
优选的,所述分析所述二值图中的连通域时,对所述二值图分别进行水平投影和垂直投影,选取长宽比在0.1至4.5之间的连通域作为文字区域。
优选的,所述从图像帧中定位出对应的文字区域时,对二值图像进行形态学滤波,滤除连通域中的噪声。
优选的,所述拟合各颜色通道进行颜色聚类时,
统计文字区域中各个颜色通道的直方图,并根据所述直方图中的波峰数量确定待聚类的类别数量;
按类别数量用FCM聚类算法进行颜色聚类,将各类别分别进行文字滤波;
统计各类别中的非零像素数,将非零像素数最多的对应类别图像作为包含字幕的文字区域。
特别的,所述将各类别分别进行文字滤波后,将与图像边缘粘连的连通域为非文字纹理滤除。
本发明还公开了一种视频字幕的提取装置,包括如下模块:
抽取模块,用于抽取视频中的图像帧,将各图像帧进行叠加平均,则得到边缘强度图;
统计模块,用于在各边缘强度图中逐点扫描,统计边缘强度图中的笔画强度,并基于笔画强度将图像帧进行二值化;
定位模块,用于分析所述二值图中的连通域,从图像帧中定位出对应的文字区域;
提取模块,用于在文字区域中拟合各颜色通道进行颜色聚类后滤波,从而按得到的类别在含有字幕的文字区域中提取对应的文字;
识别模块,用于将所述文字进行OCR识别,得到视频中的字幕。
优选的,所述抽取模块统计边缘强度图中的笔画强度时,统计边缘强度图中每个像素点的边缘强度值,得到图像帧对应的笔画强度图。
优选的,所述定位模块分析所述二值图中的连通域时,对所述二值图分别进行水平投影和垂直投影,选取长宽比在0.1至4.5之间的连通域作为文字区域。
优选的,所述提取模块拟合各颜色通道进行颜色聚类时,
统计文字区域中各个颜色通道的直方图,并根据所述直方图中的波峰数量确定待聚类的类别数量;
按类别数量用FCM聚类算法进行颜色聚类,将各类别分别进行文字滤波;
统计各类别中的非零像素数,将非零像素数最多的对应类别图像作为包含字幕的文字区域。
本发明实施例提供的一种视频字幕的提取方法及装置,通过从图像增强后的各图像帧中定位文字区域,并以颜色聚类的方式提取文字区域中的文字后识别,通过颜色聚类在文字区域中有效地对视频帧中的文字进行了提取,不受文字区域中复杂背景的影响,从而提高了字幕的识别效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷成世纪科技股份有限公司,未经北京捷成世纪科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210297750.0/2.html,转载请声明来源钻瓜专利网。