[发明专利]一种印刷体文本版面数字化重建系统及方法在审
申请号: | 202111183851.0 | 申请日: | 2021-10-11 |
公开(公告)号: | CN114005123A | 公开(公告)日: | 2022-02-01 |
发明(设计)人: | 马尽文 | 申请(专利权)人: | 北京大学 |
主分类号: | G06V30/412 | 分类号: | G06V30/412;G06V30/413;G06V30/414;G06V20/62;G06V10/28;G06V10/764;G06V30/19;G06V30/10;G06V10/82;G06K9/62;G06N3/04;G06N3/08;G06F40/151 |
代理公司: | 北京汇智胜知识产权代理事务所(普通合伙) 11346 | 代理人: | 赵立军;石辉 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 印刷体 文本 版面 数字化 重建 系统 方法 | ||
本发明公开了一种印刷体文本版面的数字化重建系统及方法。所述系统包括:版面语义分割模块,对输入的文本版面图像进行语义结构分析,按照不同的语义类型,将输入的文本版面图像分割成若干个语义块,实现不同语义块的分割与定位,所述语义块的类型包括文本块、表格块、公式块和插图块;OCR模块,用于识别和重建文本块或表格块中的文本;公式识别模块,用于识别公式块或表格块中的公式,进行公式的识别与重建;表格识别模块,用于对表格块进行表格结构和内容的识别和重建;组装模块,根据所述语义块的位置结构信息,将这些语义块的识别与重建结果进行组装与合成,输出完整的HTML格式的文本版面,实现文本版面图像的数字化重建。
技术领域
本发明涉及一种印刷体文本版面数字化重建系统及方法。
背景技术
随着大数据及人工智能技术的快速发展,大批量印刷体文本材料需要进行数字化,以用于建立可供检索系统和机器学习的数据集。但是目前现有技术中还不存在全自动的文本版面图像数字化的方法和系统,只能进行人工或半自动的人工操作。
文本版面图像的内容理解和识别是许多人工智能技术的数据来源,也是文档和书籍的数字化保存的必由之路,有着广泛的应用市场。现有技术中已经有大量开源或付费的OCR(Optical Character Recognition,光学字符识别)文字识别系统。这些系统能够对扫描图像的文本达到很高的识别准确率,但对于文字的位置无法确定和复现,只能将其挤压存放在一起。
另外,这些系统对于公式、表格和插图无法识别和重建,只能得到一些零散的文字与符号。因此,目前的OCR系统无法实现文本版面图像的全自动数字化转换。在实际操作中,许多文本版面的数字化转换是靠人工操作来识别和重建的,需要耗费了大量的人力资源,成本巨大,而且效率低下。为了提高工作效率,现在也出现了半自动的操作方式,即通过对于文本版面图像进行人工分析和处理来帮助检测出文本和其它不同性质的结构区域。
根据目前的OCR技术和版面分析方面的结果,OCR及其应用系统能够对于固定结构的文本版面(如发票、证书等)进行识别和重建,或者仅仅对文字进行识别或提取,但却无法对普通印刷体文本版面图像进行全自动的结构发现和整体数字化重建。
发明内容
术语解释:
HTML文件:超文本标记语言或超文本链接标示语言(标准通用标记语言下的一个应用)HTML(HyperText Mark-up Language)是一种制作万维网页面的标准语言,是万维网浏览器使用的一种语言,它消除了不同计算机之间信息交流的障碍。HTML文件能够转换为word文件或通过word编辑器进行编辑处理。
本发明的目的在于提供一种印刷体文本版面数字化重建系统及方法来实现对印刷体文本版面图像的全自动数字化重建。
本发明应用场景:应用于需要将普通印刷体文本材料(如科技论文、年鉴、图书、报表等)的电子扫描图像(例如JPG文件等)进行数字化转换,形成可检索和编辑的HTML文件。
本发明实施例提供一种印刷体文本版面数字化重建系统,所述系统包括:
版面语义分割模块,用于对输入的文本版面图像进行语义结构分析,按照不同的语义类型,将输入的文本版面图像分割成若干个语义块,实现不同语义块的分割与定位,所述语义块的类型包括文本块、表格块、公式块和插图块;
OCR模块,用于识别和重建文本块或表格块中的文本;
公式识别模块,用于识别公式块或表格块中的公式,进行公式的识别与重建,识别出公式的结构和符号,输出能够生成和表示公式的Latex程序或字符串,并转换成相应的HTML文件;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111183851.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:蔓生植物盆式栽培茎蔓支架及安装方法
- 下一篇:一种可安全取件的冲压模具