[发明专利]一种基于深度学习的视频文字端到端检测与识别的方法有效
申请号: | 202110662868.8 | 申请日: | 2021-06-15 |
公开(公告)号: | CN113361432B | 公开(公告)日: | 2022-03-15 |
发明(设计)人: | 邓建华;秦琪怡;常为弘;俞泉泉;何佳霓;杨杰;李龙;代铮;郑凯文;赵建恒;陶泊昊;苟晓攀;肖正欣;余坤;陈翔;蔡竟业 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V20/62;G06V10/774;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 周刘英 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 视频 文字 端到端 检测 识别 方法 | ||
本发明公开了一种基于深度学习的视频文字端到端检测与识别的方法,属于视频文字处理技术领域。本发明的步骤包括:对待识别的视频序列段,分别对每一视频帧图像进行图像尺寸归一化处理,以使得预处理后的图像尺寸与端到端的文字检测与识别网络的输入相匹配;将预处理后的图像依次输入至端到端的文字检测与识别网络,获取待识别的视频序列段的文字识别结果。本发明实现了视频文字端到端的检测与识别,规避了多模块目标不一致而导致误差累积等固有缺陷,减少了工程复杂度。还通过共享特征提取网络优化网络结构,同时由于使用了感受野较大的特征图输入到网络的识别分支中,相比于使用原图进行输入,特征图能够包含更大范围的信息,提高了识别准确率。
技术领域
本发明涉及视频文字处理技术领域,尤其涉及一种基于深度学习的视频文字端到端检测与识别方法。
背景技术
年来,随着社会信息化数字化发展,多媒体信息的广泛传播使得如何从海量的视频、图像中提取信息成为了急切需要解决的问题。视频文字检测识别技术能很好的满足对于大量视频内容提取与审核等方面的需求。相比于人工,借助视频文字检测识别技术进行视频内容提取与审核等工作,能够大幅提高效率并降低人力成本。
其中,文字检测是指使用文字检测算法对输入的图像进行检测,判断输入图像中是否含有文字,如果图像中包含文字,则进一步地对其在图像中出现的位置进行定位。文字识别是指使用文字识别算法对输入图片中含有的文字信息进行识别,对于输入图片的要求较为严格,需要尽可能只包含含有文字的区域,因此往往是在文字检测成功的前提下进行的。
然而视频图像中的文字信息具有背景复杂、图像模糊、文字的字形字体多样性强、有时字形显示不完整等特点,这些特点注定了对视频文字进行检测与识别是一项难度较大的工作。有效地应用深度学习技术,可以提高视频文字信息提取的速度,从而大幅地减少人力成本,加快审核和内容提取的效率。在本发明的技术方案的实现过程中,发明人发现:现有的两阶段文字检测与识别方法,可能在检测的过程中引入误差,例如对文字区域误检、漏检或检测不完整,导致识别结果出错。因此需要一种基于深度学习的视频文字端到端检测与识别方法来克服现有方法存在的问题。
发明内容
本发明的目的在于,提供一种基于深度学习的视频文字端到端检测与识别的方法,通过共享特征提取网络改善现有的两阶段视频文字检测识别方法中检测结果不准确时容易干扰识别结果的问题,同时提高网络推理的效率。
本发明采用的技术方案如下:
一种基于深度学习的视频文字端到端检测与识别方法,包括如下步骤:
步骤S1:对待识别的视频序列段,分别对每一视频帧图像进行图像尺寸归一化处理,以使得预处理后的图像尺寸与端到端的文字检测与识别网络的输入相匹配;
步骤S2:将预处理后的图像依次输入至端到端的文字检测与识别网络,获取待识别的视频序列段的文字识别结果;
所述端到端的文字检测与识别网络的网络结构包括共享特征提取网络、检测分支和识别分支;
所述共享特征提取网络包括顺次连接的输入层、批归一化处理层、非线性激活层、最大池化层和至少四个大卷积层(也可称为卷积单元),并定义N表示共享特征提取网络的大卷积层数量;
其中,每个大卷积层包括若干个顺次连接的瓶颈残差结构,且每个大卷积层包括的瓶颈残差结构的数量可调,所述瓶颈残差结构的输入到输出存在一个恒等映射,且每个瓶颈残差结构的末尾设置有通道注意力机制;
在输入层、池化层和第2至第N-1个大卷积层的第一个瓶颈残差结构中分别对其输入特征图进行1/2的下采样,以及将第N个大卷积层的输出特征图与第N-1个大卷积层的输出特征图进行特征融合,得到特征图MN并作为检测分支的输入特征图,将特征图MN与第N-2至第1个大卷积层进行逐层的特征融合,得到特征图M2并作为识别分支的输入特征图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110662868.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于临床数据的特征选择方法及装置
- 下一篇:一种带止回阀的防爆电磁阀