[发明专利]一种基于剪枝深度模型用于自然场景图像文本识别方法在审
申请号: | 201911221023.4 | 申请日: | 2019-12-03 |
公开(公告)号: | CN111178133A | 公开(公告)日: | 2020-05-19 |
发明(设计)人: | 刘杰;张雪 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/20;G06N3/04;G06N3/08 |
代理公司: | 北京汇众通达知识产权代理事务所(普通合伙) 11622 | 代理人: | 李志男 |
地址: | 150001 黑龙江*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 剪枝 深度 模型 用于 自然 场景 图像 文本 识别 方法 | ||
本发明公开了一种基于剪枝深度模型用于自然场景图像文本识别方法;主要涉及修剪深度网络(Yolo v3‑Darknet53)和修剪后的深度网络对自然场景图像中文本进行检测和识别;该方法包括对深度网络剪枝策略、过滤检测模型输出的特征图、使用VGG16网络对文本信息提取、微调包围框、对文本信息进行识别;本发明使用文本检测和识别通用的ICDAR2015作为训练集和测试集,可以有效地展现自然场景图像的多种复杂性;计算机视觉领域的CNN规模日渐庞大,本发明旨在缩减网络规模、节省训练时间、缓解硬件设备压力、减小对检测和识别准确率的影响。
技术领域
本发明涉及到深度学习和目标识别领域,具体是一种基于剪枝深度模型用于自然场景图像文本识别方法。
背景技术
在人们日常的生产生活中每天会发送和收获大量的图像,而大多数图像中会包含大量的文本信息;例如在社交网络中人们常用的Instagram和Facebook每天会产生多达上亿张图像,而在国内微信、微博和邮箱等应用每天以图像的形式为大量用户传输信息;然而,环境的复杂性,灵活的图像采集方式和文本内容的变化带来了各种挑战;对图像进行处理时最好的就是卷积神经网络,但最近的CNN每一个层的卷积核输出通道层数加上填充数量越来越深大多数都是上百层,对网络消耗庞大,对设备要求较高;当网络模型过大的时,对用户会造成很大的困扰;这样深度网络,对于普通人而言,他们的设备大多内存不足,CPU和GPU的计算能力较差,在深度网络上的运算时间消耗较多;所以现有的技术需要一种能提高自然场景图像文本识别的速度和准确度的一种基于剪枝深度模型用于自然场景图像文本识别方法。
发明内容
本发明的目的在于提供种基于剪枝深度模型用于自然场景图像文本识别方法,以解决上述背景技术中所提到的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于剪枝深度模型用于自然场景图像文本识别方法,其特征在于:包括以下步骤:
步骤S1:压缩Darknet53模型;
步骤S2:文本区域过滤和提取;
步骤S3:文本信息提取;
步骤S4:文本识别。
作为本发明进一步的方案:所述步骤S1包括:
①合并卷积层和BN层;
②引入比例因子γ,通道层次稀疏正则化;
③比例因子排序、剪枝。
作为本发明进一步的方案:所述步骤S2包括:
①对所有框的得分进行排序,选中最高分及其对应的框;
②遍历其余的框,如果和当前最高分框的重叠面积(IOU)大于一定阈值,就将会此框删除;
③从未处理的框中继续选一个得分高的,重复上述过程。
作为本发明进一步的方案:所述步骤S3包括:
①VGG16的前5个Conv stage得到feature map;
②用3*3的滑动窗口在前一步得到的feature map上提取特征,利用这些特征来对多个anchor进行预测,界定出目标待选区域:
③通过分类或回归得到的输出。
作为本发明进一步的方案:所述步骤S4包括;
①对bbox进行处理,首先要计算bbox的角度;
②选择bbox框出的部分,并裁剪出来;
③将bbox旋转到正确的方向,送入识别网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911221023.4/2.html,转载请声明来源钻瓜专利网。