[发明专利]自动分割字符区域的图像文字检测模型训练方法及装置有效
申请号: | 202110021189.2 | 申请日: | 2021-01-08 |
公开(公告)号: | CN112733857B | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 张乐平;张博;杨涛;侯磊;李海峰 | 申请(专利权)人: | 北京匠数科技有限公司 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06N3/04;G06N3/08 |
代理公司: | 北京盛凡佳华专利代理事务所(普通合伙) 11947 | 代理人: | 王翠 |
地址: | 100036 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自动 分割 字符 区域 图像 文字 检测 模型 训练 方法 装置 | ||
1.一种自动分割字符区域的图像文字检测模型训练方法,其特征在于,包括以下步骤:
采用卷积神经网络抽取目标图像特征,利用卷积层将所述目标图像的通道数转换为类别个数;
通过文字区域检测模型生成所述目标图像按比例缩小的特征图,将所述特征图中每个像素点的值对应于所述类别;
将所述特征图放大至所述目标图像的尺寸并作为文字区域的掩码图,将生成的掩码与目标图像叠加获得包含文字的区域子图像;
对所述区域子图像进行文字间隙识别,将所述文字间隙标记为背景,使所述掩码图中每个文字字符分隔开;
所述文字区域检测模型在训练时按照图像分类模型进行训练,在卷积层输出后添加Flatten层转换,再添加一个softmax层输出类别;
所述文字区域检测模型在推理时,去掉最后的Flatten层和softmax层,直接获取卷积层的输出。
2.根据权利要求1所述的一种自动分割字符区域的图像文字检测模型训练方法,其特征在于,对所述目标图像采用原始尺寸或按比例缩放后进行输入,采用文字区域检测模型对整张目标图像进行扫描和特征提取,每次卷积依次提取目标图像的一块区域,对文字区域检测模型前向计算得到每个区域的对应特征。
3.根据权利要求2所述的一种自动分割字符区域的图像文字检测模型训练方法,其特征在于,当区域中出现预设范围字符时将该区域标记为文字区域;
在对输入的目标图像扫描的过程中,当计算窗口经过一组字符时,将字符的周围均输出为0,字符中心输出为1,在最终的特征图上把每个字符区域分割开来。
4.根据权利要求1所述的一种自动分割字符区域的图像文字检测模型训练方法,其特征在于,进行文字图像生成工具构建,通过所述文字图像生成工具随机设定字体、灰度和大小,从已有的语料库中随机选取文字组合打印成为文字位图;将所述文字位图合并至随机选取的背景图像上,根据窗口采样规则提取选定区域作为训练数据。
5.根据权利要求4所述的一种自动分割字符区域的图像文字检测模型训练方法,其特征在于,对窗口采样的区域图像进行图像增强处理,所述图像增强处理包括高斯噪声、高斯滤波、图像颜色翻转和直方图均衡。
6.根据权利要求5所述的一种自动分割字符区域的图像文字检测模型训练方法,其特征在于,通过所述文字图像生成工具读入配置参数,所述配置参数包括生成训练数据的总数、背景图像的数据源目录、字体库路径和采样区域的随机权重分布以及图像增强的随机权重指数;
通过所述文字图像生成工具对目标图像进行多进程处理,依次执行字符串生成、背景图像选取、文字打印参数选取、执行文字打印、窗口采样和图像增强步骤,将得到的采样图像统一缩放至预设大小并与标注数据一并压缩为记录文件作为文字区域检测模型的训练数据集。
7.一种自动分割字符区域的图像文字检测模型训练装置,其特征在于,包括:
图像特征提取单元,用于采用卷积神经网络抽取目标图像特征,利用卷积层将所述目标图像的通道数转换为类别个数;
像素点类别处理单元,用于通过文字区域检测模型生成所述目标图像按比例缩小的特征图,将所述特征图中每个像素点的值对应于所述类别;
区域子图像生成单元,用于将所述特征图放大至所述目标图像的尺寸并作为文字区域的掩码图,将生成的掩码与目标图像叠加获得包含文字的区域子图像;
文字间隙识别单元,用于对所述区域子图像进行文字间隙识别,将所述文字间隙标记为背景,使所述掩码图中每个文字字符分隔开;
用于执行以下步骤的单元:所述文字区域检测模型在训练时按照图像分类模型进行训练,在卷积层输出后添加Flatten层转换,再添加一个softmax层输出类别;
所述文字区域检测模型在推理时,去掉最后的Flatten层和softmax层,直接获取卷积层的输出。
8.根据权利要求7所述的一种自动分割字符区域的图像文字检测模型训练装置,其特征在于,还包括:
文字图像生成单元,用于通过文字图像生成工具随机设定字体、灰度和大小,从已有的语料库中随机选取文字组合打印成为文字位图;将所述文字位图合并至随机选取的背景图像上,根据窗口采样规则提取选定区域作为训练数据;
图像增强单元,用于对窗口采样的区域图像进行图像增强处理,所述图像增强处理包括高斯噪声、高斯滤波、图像颜色翻转和直方图均衡;
通过所述文字图像生成工具读入配置参数,所述配置参数包括生成训练数据的总数、背景图像的数据源目录、字体库路径和采样区域的随机权重分布以及图像增强的随机权重指数;
通过所述文字图像生成工具对目标图像进行多进程处理,依次执行字符串生成、背景图像选取、文字打印参数选取、执行文字打印、窗口采样和图像增强步骤,将得到的采样图像统一缩放至预设大小并与标注数据一并压缩为记录文件作为文字区域检测模型的训练数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京匠数科技有限公司,未经北京匠数科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110021189.2/1.html,转载请声明来源钻瓜专利网。