[发明专利]PDF文档跨页表格合并方法、装置、电子设备及存储介质有效
申请号: | 202011290521.7 | 申请日: | 2020-11-17 |
公开(公告)号: | CN112380825B | 公开(公告)日: | 2022-07-15 |
发明(设计)人: | 王文浩;徐国强 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/174 | 分类号: | G06F40/174;G06N20/00;G06F16/16 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 孙芬 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | pdf 文档 表格 合并 方法 装置 电子设备 存储 介质 | ||
1.一种PDF文档跨页表格合并方法,其特征在于,所述PDF文档跨页表格合并方法包括:
获取至少两个包含表格的PDF文档,并采集每个所述PDF文档中的至少一个表格的位置信息和文本信息,并根据所述表格的位置信息得到表格数据集;
对所述表格数据集中的每个表格,随机选取每个所述表格中的一行进行划分,得到每个所述表格的上半区块的位置信息和每个所述表格的下半区块的位置信息,合并所述每个表格的上半区块的位置信息和每个所述表格的下半区块的位置信息得到正样本数据,将所述正样本数据标注为第一标记,随机选择所述每个表格的上半区块的位置信息和其他表格的上半区块的位置信息得到负样本数据,将所述负样本数据标注为第二标记,所述正样本数据与所述负样本数据组成样本训练数据,所述样本训练数据与对应的标注组成跨页表格训练数据集;
构建基于深度双向变换器的预训练模型的深度学习模型,根据所述跨页表格训练数据集构造所述深度学习模型的输入数据,将所述跨页表格训练数据集中的每个所述表格中的单元格作为所述深度学习模型的输入的步长,将所述跨页表格训练数据集中每个样本训练数据标注对应的二分类预测值作为所述深度学习模型的输出,训练并优化所述深度学习模型,得到表格合并模型;
获取PDF测试文档,采集所述PDF测试文档中每个页面的文本信息和位置信息,去除所述PDF测试文档中每个页面的页眉与页脚的文本信息和位置信息,根据所述每个页面的位置信息判断每个页面的底部和顶部是否存在表格,当所述页面底部与所述页面的下一页面顶部存在表格时,合并所述页面底部的表格的位置信息与所述页面的下一页面顶部的表格的位置信息,将合并结果作为跨页表格测试数据;
根据所述跨页表格测试数据,利用所述表格合并模型预测得到二分类预测值,所述二分类预测值用于判断所述跨页表格测试数据是否需要合并;
当判断所述跨页表格测试数据需要合并时,合并所述页面底部的表格与所述下一页面顶部的表格得到结果表格,并根据指令显示所述结果表格。
2.如权利要求1所述的PDF文档跨页表格合并方法,其特征在于,所述根据所述跨页表格训练数据集构造所述深度学习模型的输入数据包括:
将所述跨页表格训练数据集中的样本训练数据和样本训练数据的标注构造为符合模型输入格式的数据,并作为所述深度学习模型的输入数据,其中,所述模型输入格式为[SEP]+table1_cell1+table1_cell2+…+table1_cellm+[SEP]+table2_cell1+table2_cell2+…+table2_celln+[SEP],其中,table1和table2表示两个区块,table_cell表示由区块中单元格位置信息构成的特征,m表示table1的单元格数量,n表示table2的单元格数量,当m大于或等于n时,[SEP]为m个“1”组成的序列,当m小于n时,[SEP]为n个“1”组成的序列,所述table_cell内的数据为[x_t,y_t,w_t,h_t,x_t+w_t,y_t+h_t,(x_t+w_t)/h_t,(y_t+h_t)/2,x_c,y_c,w_c,h_c,x_c+w_c,y_c+h_c,(x_c+w_c)/h_c,(y_c+h_c)/2,a],其中,x_t为区块左上角的x坐标,y_t为区块左上角的y坐标,w_t为区块的宽,h_t为区块的高,x_c为单元格左上角的x坐标,y_c为单元格左上角的y坐标,w_c为单元格的宽,h_c为单元格的高,a为0或1。
3.如权利要求2所述的PDF文档跨页表格合并方法,其特征在于,所述将所述跨页表格训练数据集中每个样本训练数据标注对应的二分类预测值作为所述深度学习模型的输出包括:
当所述样本训练数据的标注为所述第一标记时,所述深度学习模型的输出中[SEP]处的二分类预测值为第一预设值;
当所述样本训练数据的标注为所述第二标记时,所述深度学习模型的输出中[SEP]处的二分类预测值为第二预设值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011290521.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:低频时钟的补偿方法及装置、存储介质、终端
- 下一篇:喷丝模板微孔加工方法