[发明专利]一种基于前向预测的扭曲文档图像矫正方法及系统在审
申请号: | 202210339635.9 | 申请日: | 2022-04-01 |
公开(公告)号: | CN114648763A | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 齐飞;万晨曦;张忠宇;祝越;石光明 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06V30/146 | 分类号: | G06V30/146;G06V30/40;G06V10/28 |
代理公司: | 北京众达德权知识产权代理有限公司 11570 | 代理人: | 吴莹 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 预测 扭曲 文档 图像 矫正 方法 系统 | ||
1.一种基于前向预测的扭曲文档图像矫正方法,其特征在于,所述方法包括:
获取扭曲图像信息;
将所述扭曲图像信息输入形状预测模型,进行所述扭曲图像信息的3D坐标预测,获得图像3D坐标信息;
将所述扭曲图像信息输入前景背景分离分支模型,预测所述扭曲图像信息的前景信息和背景信息,其中,所述前景背景分离分支模型包括于所述形状预测模型;
将所述图像3D坐标信息输入前向预测模型,进行所述图像3D坐标信息的矫正3D坐标预测,获得矫正3D坐标信息;
将所述矫正3D坐标信息结合所述前景信息进行融合处理,获得2D前向图;
根据所述2D前向图进行插值处理,获得2D后向图;
通过所述2D后向图,生成获得所述扭曲图像信息的矫正图像信息。
2.根据权利要求1所述的方法,其特征在于,所述形状预测模型为基于U-Net网络结构训练获得的多尺度特征融合形状预测子网络,所述训练包括:
获取训练扭曲图像信息;
切取所述训练扭曲图像信息内待识别区域的外接矩形;
对所述外接矩形进行填充像素处理;
对处理后的所述外接矩形采用数据集进行背景增广,获得训练数据;
采用所述训练数据训练所述形状预测模型;
所述形状预测模型的损失函数为:
其中,S为所述训练扭曲图像信息的3D坐标,为梯度算子。
3.根据权利要求1或2所述的方法,其特征在于,所述前向预测模型为基于U-Net网络训练获得的多尺度特征融合前向预测子网络,且所述形状预测模型和所述前向预测模型分别在单独训练之后进行联合训练;
所述前向预测模型的损失函数为:
其中,F为矫正3D坐标,为所述矫正3D坐标对应的梯度场,βf为平衡所述矫正3D坐标和所述梯度场的参数。
4.根据权利要求1所述的方法,其特征在于,所述将所述矫正3D坐标信息结合所述前景信息进行融合处理,包括:
将所述矫正3D坐标信息和所述前景信息进行融合,获得融合结果;
提取所述融合结果中的前景部分的矫正3D坐标,获得前景矫正3D坐标信息;
根据所述前景矫正3D坐标信息,提取获得扭曲图像信息中待识别区域的基向量;
基于所述基向量,对所述前景矫正3D坐标信息进行归一化处理,获得所述2D前向图。
5.根据权利要求1所述的方法,其特征在于,所述插值处理,包括:
对于所述2D后向图中的任意一点,获取所述2D前向图内与所述任意一点邻近的位于整数坐标上的两点;
获取所述两点在所述2D前向图内的两坐标值;
根据两所述坐标值,对所述任意一点进行线性插值;
根据所述2D前向图内的坐标对所述2D后向图内的全部点进行线性插值,获得所述2D后向图。
6.根据权利要求5所述的方法,其特征在于,所述对所述2D后向图内的全部点进行线性插值之后,还包括:
对所述线性插值的结果,采用中值滤波器进行噪声滤除;
根据所述噪声滤除的结果,获得所述2D后向图。
7.根据权利要求1所述的方法,其特征在于,所述通过所述2D后向图,生成获得所述扭曲图像信息的矫正图像信息,包括:
根据所述2D后向图和所述扭曲图像信息,构建所述2D后向图中坐标位置和所述扭曲图像信息中像素的映射关系;
根据所述映射关系,采集所述扭曲图像信息中处于整数坐标位置的像素点;
对所述扭曲图像信息中不处于所述整数坐标位置的非标准像素点,采用双线性插值法插值获得所述非标准像素点的像素值;
根据所述像素点和所述非标准像素点的像素值,根据所述映射关系在所述2D后向图内进行全部像素点的像素处理,生成所述矫正图像信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210339635.9/1.html,转载请声明来源钻瓜专利网。