[发明专利]一种视频中滚动字幕的自动检测和识别方法有效
申请号: | 201410503515.3 | 申请日: | 2014-09-26 |
公开(公告)号: | CN104244073B | 公开(公告)日: | 2017-05-17 |
发明(设计)人: | 汪阳;张健;彭宇新 | 申请(专利权)人: | 北京大学 |
主分类号: | H04N21/435 | 分类号: | H04N21/435;H04N21/235;G06K9/00 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙)11200 | 代理人: | 余功勋 |
地址: | 100871 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 滚动 字幕 自动检测 识别 方法 | ||
技术领域
本发明属于视频内容检索技术领域,具体涉及一种视频中滚动字幕的检测和识别方法。
背景技术
随着互联网技术与多媒体技术的迅速发展,网络上出现了海量的视频内容。此外,电视台等业务单位及数字图书馆、远程教学、视频点播等多媒体应用也产生了大量的视频资料。面对如此海量的视频数据,如何进行分析和检索,使用户能够迅速检索到想要的内容,成为了一个亟待解决的问题。传统的方法基于人工标注的关键词进行检索,这种方法因为主观性强、手工标注等缺点,不能适用于海量视频内容的检索与管理。而大量视频包含了丰富的字幕信息,这些字幕文字信息一般同视频的内容密切相关,能够对之进行较为准确的描述,因此如果能够正确识别这些文字,将有利于计算机对视频内容的自动分析和检索。然而,由于视频背景复杂多变,如何从视频中识别字幕文字本身就是一个极为困难的问题。
现有的视频字幕识别方法一般包含四个模块,即视频字幕检测模块、视频字幕增强模块、视频字幕提取模块和OCR软件识别模块。其中:视频字幕检测模块对视频内容进行了分析,在视频帧中检测和定位字幕区域;视频字幕增强模块主要采用多帧融合的方法,对在多个视频帧中检测到的相同字幕区域进行融合,以得到背景更为平滑、笔画更为清晰的文字图像;视频字幕提取模块对字幕区域图像进行处理,把文字从背景中分割出来,转化成可供OCR软件识别的二值文字图像;OCR软件识别模块识别二值文字图像,完成文字图像到文本的转换。在这4个模块中,OCR是比较成熟的技术,在市场上已有成功的应用。因此,现有研究主要集中在视频字幕检测、基于多帧融合的视频字幕增强和视频字幕提取这三个模块上。
然而,现有的方法只针对视频中的固定字幕进行处理,忽略了视频中的滚动字幕。视频中的滚动字幕是大量存在的,例如新闻节目、体育节目等视频会存在大量的滚动字幕播放新闻消息和比赛结果,电视剧、电影结尾的演职员表等也是滚动字幕。这些滚动字幕中包含了大量的有用信息,若能够将其检测和识别出来,将能够更好地描述视频信息,为视频内容的检索提供更多的有用信息。
发明内容
针对目前缺乏对视频滚动字幕进行有效检测与识别的现状,本发明提出了一种视频中滚动字幕的自动检测和识别方法,用于检测视频中是否包含滚动字幕,并能够将滚动字幕中的文本信息自动识别出来。本发明具有如下三个优点:(1)对于视频中的水平滚动和垂直滚动字幕提出了一种检测和跟踪方法,能够区分出视频中的固定字幕和滚动字幕,并能够将出现在不同位置的滚动字幕检测出来,并实现滚动字幕的跟踪;(2)提出了一种对于滚动字幕的拼接算法,能够将水平滚动的字幕拼接起来进行识别,并能够进一步利用多帧信息来提高滚动字幕的识别效果;(3)传统的视频字幕识别技术一般主要用于固定字幕,直接用于滚动字幕检测和识别会造成大量的重复文本识别,影响识别结果的可读性和可用性,而本发明能够很好地跟踪滚动字幕,避免重复识别,具有重复率低的优点。
为了达到以上目的,本发明的技术方案如下:
一种视频中滚动字幕的自动检测和识别方法,用于对视频中的滚动字幕进行检测,并识别出其中的文字;包括如下步骤:
(1)滚动字幕区域的检测:目的是检测出视频帧图像中含有的字幕区域是否为滚动字幕,并进一步判断滚动字幕是水平滚动还是垂直滚动;
(2)垂直滚动字幕的过滤和识别:基于步骤(1)中检测到的多帧连续包含垂直滚动字幕的视频图像,采用自适应检测窗口的方法,对检测到的字幕区域进行过滤,以降低字幕识别的重复率;相同的字幕会出现多次,我们将相同字幕的多帧视频图像的字幕区域根据背景和文字信息,选择其中最清晰的一帧图像来进行后续的字幕分割与提取操作,并输入OCR识别软件;
(3)水平滚动字幕的拼接和识别:基于步骤(1)中检测到的多帧连续包含水平滚动字幕的图像,将多帧图像拼接为一帧包含完整滚动字幕的图像,经过二值化处理后,作为OCR识别软件的输入。
进一步,上述的一种视频中滚动字幕的自动检测和识别方法,所述步骤(1)中,滚动字幕区域检测的第一步是判断检测到的字幕区域是否为垂直滚动字幕。本发明利用字幕区域的位置信息、边缘分布信息以及相似度信息来判断是否为垂直滚动字幕。首先我们判断连续两帧视频图像的字幕区域是否有相交区域,并且相交区域的面积需要满足下列的公式一。
公式一:Overlap(Ba,Bb)>r1×Max(area(Ba),area(Bb));
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410503515.3/2.html,转载请声明来源钻瓜专利网。