[发明专利]基于字符区域检测的图像文字快速识别方法及装置有效
申请号: | 202110021200.5 | 申请日: | 2021-01-08 |
公开(公告)号: | CN112733858B | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 张博;张乐平;侯磊;匡海泉;李海峰 | 申请(专利权)人: | 北京匠数科技有限公司 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/32;G06K9/62;G06N3/08 |
代理公司: | 北京盛凡佳华专利代理事务所(普通合伙) 11947 | 代理人: | 王翠 |
地址: | 100036 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 字符 区域 检测 图像 文字 快速 识别 方法 装置 | ||
1.基于字符区域检测的图像文字快速识别方法,其特征在于,包括以下步骤:
采用卷积神经网络抽取目标图像特征,利用卷积层将所述目标图像的通道数转换为类别个数;
通过文字区域检测模型生成所述目标图像按比例缩小的特征图,所述特征图中每个像素点的值对应于所述类别;
将所述特征图放大至所述目标图像的尺寸并作为文字区域的掩码图,将生成的掩码与目标图像叠加获得到包含文字的区域子图像;
对所述区域子图像进行文字间隙识别,将所述文字间隙标记为背景,使所述掩码图中每个文字字符分隔开;
通过所述掩码图对所述区域子图像进行字符区域提取,获得每个字符的字符区域。
2.根据权利要求1所述的基于字符区域检测的图像文字快速识别方法,其特征在于,还包括:对所述掩码图进行横向闭运算合成一个闭合区域,提取所述闭合区域的矩形轮廓获得一行文字的整体区域,将提取的所述整体区域的每个字符区域从左到右排序,将排序后的字符区域按照行组合;
所述获得每个字符的字符区域,进一步包括:利用初始的所述掩码图提取所述整体区域的每个字符区域。
3.根据权利要求2所述的基于字符区域检测的图像文字快速识别方法,其特征在于,采用文字字符识别模型对按照行组合后的字符区域批量识别分类,按照字符区域已有的顺序重组形成字符串。
4.根据权利要求1所述的基于字符区域检测的图像文字快速识别方法,其特征在于,所述文字区域检测模型在训练时按照图像分类模型进行训练,将卷积层输出后添加Flatten层转换,再添加一个softmax层输出类别。
5.根据权利要求4所述的基于字符区域检测的图像文字快速识别方法,其特征在于,所述文字区域检测模型在推理时,去掉最后的flatten层和softmax层,直接获取卷积层的输出。
6.根据权利要求1所述的基于字符区域检测的图像文字快速识别方法,其特征在于,对所述目标图像采用原始尺寸或按比例缩放后进行输入,采用文字区域检测模型对整张目标图像进行扫描和特征提取,每次卷积依次提取目标图像的一块区域,对文字区域检测模型前向计算得到每个区域的对应特征;
当区域中出现预设范围字符时将该区域标记为文字区域;
在对输入的目标图像扫描的过程中,当计算窗口经过一组字符时,将字符的周围均输出为0,字符中心输出为1,在最终的特征图上把每个字符区域分割开来。
7.根据权利要求1所述的基于字符区域检测的图像文字快速识别方法,其特征在于,对同一幅目标图像进行多尺度多次识别,将特征掩码在原图尺寸上进行融合获得综合文字判定结果。
8.根据权利要求1至7任一项所述的基于字符区域检测的图像文字快速识别方法,其特征在于,用于视频实时分析、视频文字内容监控和公共屏幕文字内容保护。
9.基于字符区域检测的图像文字快速识别装置,其特征在于,包括:
图像特征提取模块,用于采用卷积神经网络抽取目标图像特征,利用卷积层将所述目标图像的通道数转换为类别个数;
像素点类别处理模块,用于通过文字区域检测模型生成所述目标图像按比例缩小的特征图,所述特征图中每个像素点的值对应于所述类别;
区域子图像生成模块,用于将所述特征图放大至所述目标图像的尺寸并作为文字区域的掩码图,将生成的掩码与目标图像叠加获得到包含文字的区域子图像;
文字间隙识别模块,用于对所述区域子图像进行文字间隙识别,将所述文字间隙标记为背景,使所述掩码图中每个文字字符分隔开;
字符区域提取模块,用于通过所述掩码图对所述区域子图像进行字符区域提取,获得每个字符的字符区域。
10.根据权利要求9所述的基于字符区域检测的图像文字快速识别装置,其特征在于,还包括:
闭合区域生成模块,用于对所述掩码图进行横向闭运算合成一个闭合区域;
整体区域生成模块,用于提取所述闭合区域的矩形轮廓获得一行文字的整体区域;
字符区域排列模块,用于利用初始的所述掩码图提取所述整体区域的每个字符区域,将提取的所述整体区域的每个字符区域从左到右排序,将排序后的字符区域按照行组合;
字符生成模块,用于采用文字字符识别模型对按照行组合后的字符区域批量识别分类,按照字符区域已有的顺序重组形成字符串。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京匠数科技有限公司,未经北京匠数科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110021200.5/1.html,转载请声明来源钻瓜专利网。