[发明专利]文档文字的重建方法及装置、电子设备、计算机存储介质在审
申请号: | 202110969444.6 | 申请日: | 2021-08-23 |
公开(公告)号: | CN113591798A | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | 张陆 | 申请(专利权)人: | 京东科技控股股份有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34;G06K9/62;G06T3/40;G06N3/04;G06N3/08 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 周初冬 |
地址: | 100000 北京市大兴区北京经*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 文字 重建 方法 装置 电子设备 计算机 存储 介质 | ||
1.一种文档文字的重建方法,其特征在于,包括:
获取待处理文档的原始图片;
检测出所述原始图片中的每行文本行,并对所述每行文本行进行裁剪,得到多个原始文本行图片;
分别将每个所述原始文本行图片输入预先训练好的超分辨网络模型中,得到每个所述原始文本行图片对应的超分辨率文本行图片;
对所述原始图片进行放大处理,得到所述原始图片对应的放大图片;其中,所述超分辨率文本行图片与所述放大图片相对所述原始图片的放大倍数相同;
将所述放大图片中的各个文本行所处的局部图像,替换为对应的所述超分辨率文本行图片,得到所述原始图片的重建图片。
2.根据权利要求1所述的方法,其特征在于,还包括:
记录每个所述原始文本行图片在所述原始图片中的位置参数;其中,所述位置参数包括所述原始文本行图片的左上角的横左边和纵坐标,以及所述原始文本行图片的宽度和长度;
其中,所述将所述放大图片中的各个文本行所处的局部图像,替换为对应的所述超分辨率文本行图片,得到所述原始图片的重建图片,包括:
将每个所述原始文本行图片在所述原始图片中的位置参数放大至目标倍数,得到多个所述放大图片中的位置参数;其中,所述目标倍数等于所述放大图片相对所述原始图片的放大倍数;
将每个所述放大图片中的位置参数指示的所述放大图片的局部图像,替换为对应的所述超分辨率文本行图片,得到所述原始图片的重建图片。
3.根据权利要求1所述的方法,其特征在于,所述超分辨网络模型预先利用多组训练数据,对所述超分辨网络模型与判别器组成的生成对抗网络进行训练得到;其中,每组所述训练数据包括同一文本行的高分辨率文本行图片和低分辨率文本行图片。
4.根据权利要求3所述的方法,其特征在于,所述超分辨率网络模型的训练方法,包括:
获取所述多组训练数据;
分别将每组所述训练数据中所述低分辨率文本行图片输入待训练的超分辨网络模型中,得到每组所述训练数据对应的超分辨率文本行图片;
基于文本误差损失函数以及判别网络损失函数,对待训练的所述超分辨网络模型进行调参,并返回执行分别将每组所述训练数据中所述低分辨率文本行图片输入待训练的超分辨网络模型中,直至所述文本误差损失函数以及所述判别网络损失函数收敛,得到训练好的所述超分辨率网络模型;
其中,所述文本误差损失函数基于训练好的第一神经网络CRNN得到,用于反映所述训练数据中的所述高分辨率文本行图片与所述训练数据对应的超分辨率文本行图片在文本上的误差;所述判别网络损失函数基于作为判别器的第二神经网络CRNN得到,用于反映所述训练数据中的所述高分辨率文本行图片与所述训练数据对应的超分辨率文本行图片在图像上的误差。
5.根据权利要求1所述的方法,其特征在于,所述获取多组训练数据,包括:
获取多张高分辨率的PDF文件;
利用格式转换工具分别对各张所述PDF文件进行图片转换,得到每张所述PDF文件对应的低分辨率图和高分辨率图;
针对每张所述PDF文件对应的低分辨率图和高分辨率图,分别利用文字行检测模型,检测出所述低分辨率图和所述高分辨率图中的文本行并裁剪,得到多张高分辨率文本行图片和多张低分辨率文本行图片;
将同一文本行对应的高分辨率文本行图片和低分辨率文本行图片组成一组训练数据。
6.一种文档文字的重建装置,其特征在于,包括:
第一获取单元,用于获取待处理文档的原始图片;
第一裁剪单元,用于检测出所述原始图片中的每行文本行,并对所述每行文本行进行裁剪,得到多个原始文本行图片;
处理单元,用于分别将每个所述原始文本行图片输入预先训练好的超分辨网络模型中,得到每个所述原始文本行图片对应的超分辨率文本行图片;
放大单元,用于对所述原始图片进行放大处理,得到所述原始图片对应的放大图片;其中,所述超分辨率文本行图片与所述放大图片相对所述原始图片的放大倍数相同;
替换单元,用于将所述放大图片中的各个文本行所处的局部图像,替换为对应的所述超分辨率文本行图片,得到所述原始图片的重建图片。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东科技控股股份有限公司,未经京东科技控股股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110969444.6/1.html,转载请声明来源钻瓜专利网。