[发明专利]一种印刷体文本版面数字化重建系统及方法在审
申请号: | 202111183851.0 | 申请日: | 2021-10-11 |
公开(公告)号: | CN114005123A | 公开(公告)日: | 2022-02-01 |
发明(设计)人: | 马尽文 | 申请(专利权)人: | 北京大学 |
主分类号: | G06V30/412 | 分类号: | G06V30/412;G06V30/413;G06V30/414;G06V20/62;G06V10/28;G06V10/764;G06V30/19;G06V30/10;G06V10/82;G06K9/62;G06N3/04;G06N3/08;G06F40/151 |
代理公司: | 北京汇智胜知识产权代理事务所(普通合伙) 11346 | 代理人: | 赵立军;石辉 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 印刷体 文本 版面 数字化 重建 系统 方法 | ||
1.一种印刷体文本版面数字化重建系统,其特征在于,包括:
版面语义分割模块,用于对输入的文本版面图像进行语义结构分析,按照不同的语义类型,将输入的文本版面图像分割成若干个语义块,实现不同语义块的分割与定位,所述语义块的类型包括文本块、表格块、公式块和插图块;
OCR模块,用于识别和重建文本块或表格块中的文本;
公式识别模块,用于识别公式块或表格块中的公式,进行公式的识别与重建,识别出公式的结构和符号,输出能够生成和表示公式的Latex程序或字符串,并转换成相应的HTML文件;
表格识别模块,用于对表格块进行表格的识别和重建,所述表格识别模块包括表格结构识别单元和单元格内容识别单元,其中,所述表格结构识别单元定位单元格的位置以及解析单元格的行列结构,所述单元格内容识别单元调用所述OCR模块和/或公式识别模块,识别与重建每个单元格中的文本与公式;
组装模块,根据所述语义块的位置结构信息,将文本块、表格块和公式块的识别与重建结果进行组装与合成,插图块直接组装,输出完整的HTML格式的文本版面,实现数字化重建。
2.如权利要求1所述的印刷体文本版面数字化重建系统,其特征在于,所述版面语义分割模块包括:
版面基础区块分割单元,其将所述文本版面图像分割为若干个基础区块;
深度语义分割单元,其基于深度语义分割神经网络确定每个基础区块的语义类型;
语义块归并单元,其基于深度语义分割单元的处理结果对相邻的相同语义类型基础区块进行归并,形成语义块并进行定位。
3.如权利要求2所述的印刷体文本版面数字化重建系统,其特征在于,所述版面基础区块分割单元对输入的文本版面图像进行下述处理:
(1)在水平方向对文本版面图像进行平滑:若同一行的像素点中,两个黑色像素点之游程中的白色游程的像素点个数小于设定的水平方向阈值时,将该白色游程的像素点修改为黑色像素,即达到平滑为黑色的目的;否则保持原来的颜色不变,依此得到水平游程平滑图像;
(2)在垂直方向对文本版面图像进行平滑:若同一列的像素点中,两个黑色像素点游程之间的白色游程像素点个数小于设定的垂直方向阈值时,将该白色游程的像素点修改为黑色像素,即达到平滑为黑色的目的;否则保持原来的颜色不变,依此得到垂直游程平滑图像;
(3)对水平游程平滑图像与垂直游程平滑图像做与运算(AND运算),得到若干个分块连通的分割图像;对于每个分块连通的分割图像确定一个基础区块,并用外接矩形框来定义基础区块的边界。
4.如权利要求3所述的印刷体文本版面数字化重建系统,其特征在于,所述水平方向阈值和垂直方向阈值根据字符宽度、字符横向间距、文本行高、和/或文本行间距来自适应选取。
5.如权利要求2所述的印刷体文本版面数字化重建系统,其特征在于,所述深度语义分割单元采用的深度语义分割神经网络由五个卷积层模块组成,
第一个卷积层模块使用步长为2的7*7的卷积提取上下文特征,输出特征图的通道数为64,高度和宽度缩减为原图的二分之一;其余四个卷积层模块都是由多个具有瓶颈结构的残差模块构成;
第二个卷积层模块和第三个卷积层模块输出的特征图的高度和宽度均为输入的二分之一;
第四个卷积层模块和第五个卷积层模块分别采用扩张率为2和4的空洞卷积。
6.如权利要求5所述的印刷体文本版面数字化重建系统,其特征在于,人工标注多幅文本版面图像的语义分割结果,用于深度语义分割神经网络的参数训练;
考虑到像素级别的标注成本过高,仅对人工标注的每个语义块指定一个矩形边界框和一个语义类型,将矩形边界框内的所有像素点赋为同一语义类型;
在参数训练中,损失函数选取标准的交叉熵损失函数,并采用随机梯度下降算法更新深度语义分割神经网络的网络参数;通过在数据集上训练和优化,得到深度语义分割神经网络的最终参数;
在预测时,当输入一幅文本版面图像后,深度语义分割神经网络输出语义类别热图,预测出各像素点的语义分类结果,对于区块级别的分类结果,则根据区块内所有像素点的分类结果,采用多数投票算法来确定区块的语义类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111183851.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:蔓生植物盆式栽培茎蔓支架及安装方法
- 下一篇:一种可安全取件的冲压模具