[发明专利]一种用于脱机手写文本识别的数据增强方法有效
申请号: | 202210183766.2 | 申请日: | 2022-02-28 |
公开(公告)号: | CN114241495B | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 侯庆志;韩廷祥;张云峰;柯文俊;魏建国 | 申请(专利权)人: | 天津大学 |
主分类号: | G06V30/40 | 分类号: | G06V30/40;G06V30/10;G06V10/774;G06K9/62;G06T3/40;G06T11/60 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 程毓英 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 脱机 手写 文本 识别 数据 增强 方法 | ||
1.一种用于脱机手写文本识别的数据增强方法,其特征在于,包括以下步骤:
步骤S1:选定脱机中文手写数据库,此数据库分为手写单字符图像数据库和手写文本行图像数据库,所述手写单字符图像数据库为每个书写作者建立一个数据文件,该数据文件包含由该书写作者书写的若干手写单字符图像;
步骤S2:对于手写单字符图像数据库,解析所有数据文件,将相同字符的手写单字符图像存储到同一文件夹下,手写单字符图像以书写作者的索引号命名,并将手写单字符图像数据库里所涉及的各个字符及每个字符所对应的编码存储为用于对手写单字符图像进行检索的字典,构建手写单字符图像数据集;
步骤S3:基于语料库构建文本行文件;
步骤S4:由所述步骤S3得到的文本行文件生成对应的手写文本行图像,每一行文本对应生成一张手写文本行图像,方法为:
步骤S41:选取文本行文件的文本行对应的手写单字符图像:对文本行文件的每行文本按字符进行遍历,利用所述步骤S2所获得的字典,从手写单字符图像数据集中依次查找和选取字符对应的手写单字符图像,为同一文本行选取的手写单字符图像来自同一书写作者;
步骤S42:对文本行文件每个文本行生成固定大小的背景图,背景图的宽度根据最长文本长度设定;为文本行文件的文本行选定缩放值,对选取的手写单字符图像进行缩放;
步骤S43:将所述选取的手写单字符图像依次水平粘贴在背景图中,生成一张手写文本行图像;
步骤S5:对所述步骤S4生成的手写文本行图像添加噪声背景,获得添加噪声背景的手写文本行图像;
步骤S6:对于步骤S5所获得的添加噪声背景的手写文本行图像,确定变换概率,以所确定的变换概率每次随机进行一项图像变换并保存,构建用于扩充步骤S1所述手写文本行图像数据库的手写文本行图像,实现手写文本行图像数据库的数据增强。
2.根据权利要求1所述的数据增强方法,其特征在于,步骤S3的方法为:
步骤S31:设定要生成的文本行的行数;
步骤S32:设定随机字符数量,按字符遍历语料库的文本,选取存在于步骤S2所述字典中的字符,在达到所述的随机字符数量时,将所选取的字符序列保存至文本行文件;
步骤S33:重复步骤S32直至达到所述要生成的文本行的行数后停止遍历,获得基于语料库构建的文本行文件。
3.根据权利要求2所述的数据增强方法,其特征在于,所述的随机字符数量设定为10至20之间的整数。
4.根据权利要求1所述的数据增强方法,其特征在于,步骤S43中将所述选取的手写单字符图像依次水平粘贴在背景图中的方法如下:记背景图的宽度和高度分别为W和H,当前所要粘贴的手写单字符图像的宽度和高度分别为w和h;记初始点水平坐标,上一个手写单字符图像的宽度为,设定字符间隔为i,当前所要粘贴的手写单字符图像左上角点应在背景图中的位置记为(x, y);在水平方向上,若当前所要粘贴的手写单字符图像粘贴后超出背景图范围,即+w W,则丢弃此文本行;否则,设定x=+i+w,在竖直方向上,若当前所要粘贴的字符为高位字符,则设定y=randomint(0, H//4);若当前所要粘贴的字符为低位字符,则设定y=randomint(H//2, (H-h)),否则,设定y=randomint((H-h)//2-4, (H-h)//2+4),其中,函数randomint(s,t)表示从整数s和t之间取随机整数;在所设定的位置粘贴相应的手写单字符图像。
5.根据权利要求1所述的数据增强方法,其特征在于,步骤S5具体如下:
步骤S51:为所述步骤S4生成的手写文本行图像添加Alpha通道,前景像素点的值设置为1,背景像素点设置为0;
步骤S52:生成与所述手写文本行图像相同尺寸的背景图,随机选取灰度值a,设定方差,将背景图像素值转换为均值为a、方差为设定值的噪声背景图;
步骤S53:将所述步骤S51生成的添加Alpha通道的手写文本行图像和步骤S52得到的噪声背景图进行融合,得到添加噪声背景的手写文本行图像。
6.根据权利要求1所述的数据增强方法,其特征在于,所述图像变换包括模糊、扭曲、亮度变化和对比度变化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210183766.2/1.html,转载请声明来源钻瓜专利网。