[发明专利]针对文字失真的对齐模型的训练方法及训练装置有效
申请号: | 202210781749.9 | 申请日: | 2022-07-05 |
公开(公告)号: | CN115063813B | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 陈昌盛;陈自炜 | 申请(专利权)人: | 深圳大学 |
主分类号: | G06V30/19 | 分类号: | G06V30/19;G06V30/40;G06V30/168;G06V30/14;G06V10/82;G06N3/0464;G06N3/0455;G06N3/08 |
代理公司: | 深圳舍穆专利代理事务所(特殊普通合伙) 44398 | 代理人: | 郑菊凤 |
地址: | 518060 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 针对 文字 失真 对齐 模型 训练 方法 装置 | ||
本公开描述一种针对文字失真的对齐模型的训练方法及训练装置,该训练方法包括获取多个原始文档并对对应的原始图像进行几何变换和基于文字骨架的位置对齐以获取标签图像;分别将原始图像、失真图像和标签图像中的文字区域对应的图像块作为第一图像集、第二图像集和第三图像集;获取对齐模型对第一图像集和第二图像集进行预测获得的预测集,并基于预测集确定预测对齐图像块;基于预测对齐图像块和第三图像集中图像块确定第一损失函数,基于预测对齐图像块的文字骨架和第二图像集中图像块的文字骨架确定第二损失函数;并且基于第一损失函数和第二损失函数训练对齐模型,以获得训练后的对齐模型。由此,能够提高对齐精度和准确度。
技术领域
本公开大体涉及文档处理领域,具体涉及一种针对文字失真的对齐模型的训练方法及训练装置。
背景技术
近年来深度学习方法在文档图像分析与处理领域具有广泛的应用。在对基于深度学习的文档图像分析模型进行训练时,常常需要采集相应的标注数据作为金标准供文档图像分析模型进行学习。
目前,在对文档图像分析模型进行训练时面临着巨大的困难,其中,较明显的是训练数据的标注难度大并且成本高。具体地,在对训练数据的进行标注时,常常需要对训练数据中的相关联的图像进行对齐(例如,需要对原始文档对应的原始图像与失真图像进行位置对齐),进而导致数据标注的成本和难度极大地增加。为了解决训练数据标注成本高的问题,现有的主流方法:通过基于图像失真模型理论,从原始图像出发去生成对应的失真图像,进而来寻找能够与失真图像对齐的原始图像;对失真图像的几何失真进行估计以及利用失真图像的特征点来进行原始图像与失真图像之间的对齐从而实现对真实环境采集到的训练数据的标注。
然而,在上述主流方法的方案中,却未考虑失真图像中文字级别的失真(例如文字的边缘模糊和/或扩散的失真)。因此,对齐精度和准确度还有待于提高。
发明内容
本公开是有鉴于上述的状况而提出的,其目的在于提供一种能够提高对齐精度和准确度的针对文字失真的对齐模型的训练方法及训练装置。
为此,本公开第一方面提供一种针对文字失真的对齐模型的训练方法,所述对齐模型是用于将原始文档对应的无失真的原始图像与有失真的失真图像进行位置对齐的深度神经网络,所述训练方法包括:获取多个原始文档,并对所述多个原始文档中的各个原始文档的原始图像进行几何变换和基于文字骨架的位置对齐以获取标签图像,所述标签图像为对齐后的原始图像;分别将所述多个原始文档对应的原始图像、失真图像和标签图像中的文字区域对应的图像块作为第一图像集、第二图像集和第三图像集;获取所述对齐模型针对所述第一图像集和所述第二图像集进行预测而获得的预测集,所述预测集包括与所述第一图像集中的图像块对应的预测结果,并基于所述预测集中的预测结果确定所述第一图像集中的图像块对应的预测对齐图像块;基于所述第一图像集中的图像块对应的预测对齐图像块和所述第三图像集中对应的图像块确定第一损失函数,基于所述第一图像集中的图像块对应的预测对齐图像块的文字骨架和所述第二图像集中对应的图像块的文字骨架确定第二损失函数;并且基于所述第一损失函数和所述第二损失函数训练所述对齐模型,以获得训练后的所述对齐模型。在这种情况下,通过第一损失函数能够使预测对齐图像块越来越接近金标准,并且通过第二损失函数能够降低预测对齐图像块偏离失真图像块中文字形态的风险,还能够降低金标准中可能存在的误差的影响,以实现预测对齐图像块与标签图像块在位置上对齐并且文字形态上更接近失真图像块,能够适配失真图像中文字级别的失真的对齐,进而能够提高对齐精度和准确度。
另外,在本公开第一方面所涉及的训练方法中,可选地,在所述几何变换中,基于各个原始文档的原始图像和失真图像中的文字区域对应的图像块获取几何变化参数,利用所述几何变换参数对各个原始文档的原始图像进行变换以使变换后的原始图像与失真图像之间的文字形状对齐。在这种情况下,基于文字区域进行几何变换,能够降低原始图像和/或失真图像中的除文字以外的其他内容的干扰。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210781749.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种便捷稳定称测鸡体重的手拖智能电子秤
- 下一篇:一种水利工程地基检测装置