[发明专利]一种基于剪枝深度模型用于自然场景图像文本识别方法在审

申请号：	201911221023.4	申请日：	2019-12-03
公开（公告）号：	CN111178133A	公开（公告）日：	2020-05-19
发明（设计）人：	刘杰;张雪	申请（专利权）人：	哈尔滨工程大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/20;G06N3/04;G06N3/08
代理公司：	北京汇众通达知识产权代理事务所(普通合伙) 11622	代理人：	李志男
地址：	150001 黑龙江***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于剪枝深度模型用于自然场景图像文本识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于剪枝深度模型用于自然场景图像文本识别方法；主要涉及修剪深度网络(Yolo v3‑Darknet53)和修剪后的深度网络对自然场景图像中文本进行检测和识别；该方法包括对深度网络剪枝策略、过滤检测模型输出的特征图、使用VGG16网络对文本信息提取、微调包围框、对文本信息进行识别；本发明使用文本检测和识别通用的ICDAR2015作为训练集和测试集，可以有效地展现自然场景图像的多种复杂性；计算机视觉领域的CNN规模日渐庞大，本发明旨在缩减网络规模、节省训练时间、缓解硬件设备压力、减小对检测和识别准确率的影响。

技术领域

本发明涉及到深度学习和目标识别领域，具体是一种基于剪枝深度模型用于自然场景图像文本识别方法。

背景技术

在人们日常的生产生活中每天会发送和收获大量的图像，而大多数图像中会包含大量的文本信息；例如在社交网络中人们常用的Instagram和Facebook每天会产生多达上亿张图像，而在国内微信、微博和邮箱等应用每天以图像的形式为大量用户传输信息；然而，环境的复杂性，灵活的图像采集方式和文本内容的变化带来了各种挑战；对图像进行处理时最好的就是卷积神经网络，但最近的CNN每一个层的卷积核输出通道层数加上填充数量越来越深大多数都是上百层，对网络消耗庞大，对设备要求较高；当网络模型过大的时，对用户会造成很大的困扰；这样深度网络，对于普通人而言，他们的设备大多内存不足，CPU和GPU的计算能力较差，在深度网络上的运算时间消耗较多；所以现有的技术需要一种能提高自然场景图像文本识别的速度和准确度的一种基于剪枝深度模型用于自然场景图像文本识别方法。

发明内容

本发明的目的在于提供种基于剪枝深度模型用于自然场景图像文本识别方法，以解决上述背景技术中所提到的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于剪枝深度模型用于自然场景图像文本识别方法，其特征在于：包括以下步骤：

步骤S1：压缩Darknet53模型；

步骤S2：文本区域过滤和提取；

步骤S3：文本信息提取；

步骤S4：文本识别。

作为本发明进一步的方案：所述步骤S1包括：

①合并卷积层和BN层；

②引入比例因子γ，通道层次稀疏正则化；

③比例因子排序、剪枝。