[发明专利]用于检测视频中的文本区域的方法、装置、设备以及介质有效
申请号: | 201910289541.3 | 申请日: | 2019-04-11 |
公开(公告)号: | CN110147724B | 公开(公告)日: | 2022-07-01 |
发明(设计)人: | 章成全;李轩;冯浩城;倪子涵;韩钧宇;丁二锐 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V20/62;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 赵林琳;丁君军 |
地址: | 100094 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 检测 视频 中的 文本 区域 方法 装置 设备 以及 介质 | ||
1.一种用于在线实时地检测在线视频中的文本区域的方法,包括:
基于第一图像帧中检测到的第一组文本区域,确定所述第一组文本区域的第一组跟踪特征,所述第一图像帧在视频的第一时刻被捕获;
基于所述第一组跟踪特征,确定所述第一时刻之后的第二时刻的第二组预测特征;
基于第二图像帧中检测到的第二组文本区域,确定所述第二组文本区域的第二组跟踪特征,所述第二图像帧在所述视频的所述第二时刻被捕获;以及
基于所述第二组预测特征和所述第二组跟踪特征,确定所述视频在所述第二时刻的一个或多个文本区域。
2.根据权利要求1所述的方法,其中确定所述第二组文本区域的第二组跟踪特征包括:
在所述第二图像帧中检测一个或多个候选文本区域;
确定所述一个或多个候选文本区域中置信度大于第一阈值的候选文本区域;以及
将所述置信度大于所述第一阈值的所述候选文本区域确定为所述第二组文本区域。
3.根据权利要求2所述的方法,其中确定所述视频在所述第二时刻的一个或多个文本区域包括:
确定所述第二组预测特征与所述第二组跟踪特征之间的特征匹配,所述第二组预测特征包括一个或多个第二预测特征,并且所述第二组跟踪特征包括一个或多个第二跟踪特征;
将匹配的每对第二预测特征和第二跟踪特征存储到匹配集合中。
4.根据权利要求3所述的方法,其中确定所述视频在所述第二时刻的一个或多个文本区域还包括:
基于与所述第二组跟踪特征中的每个第二跟踪特征相对应的文本区域的已匹配次数,调整每个第二跟踪特征的置信度。
5.根据权利要求3或4所述的方法,其中确定所述视频在所述第二时刻的一个或多个文本区域还包括:
在所述第二组文本区域过滤掉置信度小于第二阈值的文本区域以生成更新的第二组文本区域,所述第二阈值大于所述第一阈值;以及
从所述匹配集合中删除与过滤掉的所述文本区域相关联的特征匹配对以生成更新的匹配集合。
6.根据权利要求5所述的方法,其中确定所述视频在所述第二时刻的一个或多个文本区域还包括:
基于所述更新的匹配集合、所述更新的第二组文本区域以及已结束匹配的文本区域,确定所述视频在所述第二时刻的所述一个或多个文本区域。
7.根据权利要求1所述的方法,其中从图像帧检测一组文本区域由文本检测模块来执行,确定下一时刻的预测特征由文本跟踪模块来执行,并且所述方法还包括:
以端到端的方式使用训练数据来训练所述文本检测模块和所述文本跟踪模块,所述训练数据包括视频以及标注的文本框。
8.根据权利要求1所述的方法,还包括:
使用卷积神经网络实时获得图像帧之间的长时时序信息;以及
基于所述长时时序信息,在所述视频的图像帧中检测一组文本区域。
9.一种用于在线实时地检测在线视频中的文本区域的装置,包括:
第一跟踪模块,被配置为基于第一图像帧中检测到的第一组文本区域,确定所述第一组文本区域的第一组跟踪特征,所述第一图像帧在视频的第一时刻被捕获;
特征预测模块,被配置为基于所述第一组跟踪特征,确定所述第一时刻之后的第二时刻的第二组预测特征;
第二跟踪模块,被配置为基于第二图像帧中检测到的第二组文本区域,确定所述第二组文本区域的第二组跟踪特征,所述第二图像帧在所述视频的所述第二时刻被捕获;以及
文本确定模块,被配置为基于所述第二组预测特征和所述第二组跟踪特征,确定所述视频在所述第二时刻的一个或多个文本区域。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910289541.3/1.html,转载请声明来源钻瓜专利网。