[发明专利]纸质文档的自动化录入方法、系统、装置及存储介质在审
申请号: | 202110999809.X | 申请日: | 2021-08-30 |
公开(公告)号: | CN113449698A | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 任江春;徐奇;胡润;田荣;张妲;任双春 | 申请(专利权)人: | 湖南文盾信息技术有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06F16/93;G06Q10/10 |
代理公司: | 长沙七源专利代理事务所(普通合伙) 43214 | 代理人: | 刘亚兰;周晓艳 |
地址: | 410005 湖南省长沙市开福区芙蓉*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 纸质 文档 自动化 录入 方法 系统 装置 存储 介质 | ||
本发明公开了一种纸质文档的自动化录入方法、系统、装置及存储介质,其中纸质文档的自动化录入系统包括:RPA机器人、OCR识别模块、数据分类模块、模型匹配模块和数据录入模块。本发明公开的技术方案将RPA技术和OCR技术结合起来,使纸质文档录入过程不需要人工干预,极大提高了文档的录入效率,同时也降低了人工操作的错误率,给政府和企业管理、利用纸质文档带来了极大的便利。
技术领域
本发明涉及档案自动化管理技术领域,具体涉及一种纸质文档的自动化录入方法、系统、装置及存储介质。
背景技术
随着“互联网+”时代信息技术的迅速发展和应用,档案管理工作也呈现出新的发展态势,积极推进数字档案建设成为国家各部门以及企业的重要发展规划。
然而,在实际工作中,由于历史原因或工作条件的限制,政府部门和企业依然存在大量重要的纸质文档,需要对这些纸质文档资源进行数字化加工、存储和应用。目前,纸质文档的录入工作主要依靠档案管理人员手动录入,大量的人工操作不仅非常耗时、效率低下,而且由于长时间的重复操作,管理员在录入过程中容易出现错误,这为纸质文档的有效利用带来了限制。
发明内容
本发明的目的在于提供一种纸质文档的自动化录入方法及管理系统,以解决人工录入档案时存在的低效、易失误的问题。
为了实现上述目的,第一方面,本发明提供了一种纸质文档的自动化录入方法,包括如下步骤:
获取纸质文档的目标图像;
识别目标图像以获取相应的内容数据,所述内容数据包括版面特征数据和文字数据,所述文字数据包括文字特征数据和正文文字数据;
根据所述内容数据对目标图像进行分类标记,获取目标图像的属性标签;
根据目标图像的属性标签匹配预设的实体文档模型;
将文字数据录入选定的实体文档模型,生成结构化文档数据;
存储所述结构化文档数据。
在一些可能的实施例中,将文字数据录入选定的实体文档模型后,对生成的结构化档案数据进行校审;
若校审结果合格,则存储所述结构化档案数据;
若校审结果不合格,则从步骤“识别目标图像以获取相应的内容数据”开始循环;如果循环第N次后,校审结果仍不合格,转由人工校审。
在一些可能的实施例中,根据所述内容数据对目标图像进行分类标记,获取目标图像的属性标签,包括:
预设文档属性标签数据集,其中包括不同类型文档的版面特征数据、以及与版面特征数据相对应的第一类属性标签;
用从目标图像中获取的版面特征数据,匹配预设文档属性标签数据集中的版面特征数据;将匹配到的版面特征数据所对应的第一类属性标签设为目标图像的第一类属性标签。
在一些可能的实施例中,预设文档属性标签数据集,其中还包括:文字特征数据以及与文字特征数据相对应的第二类属性标签;第二类属性标签对应唯一的第一类属性标签;
对从目标图像中获取的标题文字数据进行语义解析,用语义解析的结果匹配预设文档属性标签数据集中的文字特征数据;将匹配到的文字特征数据所对应的第二类属性标签设为目标图像的第二类属性标签;
若同一目标图像的第二类属性标签和第一类属性标签满足预设的对应关系,则完成对目标图像分类标记;
若同一目标图像的第二类属性标签和第一类属性标签不满足预设的对应关系,则输出报错内容后,又从新开始分类标记步骤,直至同一目标图像的第二类属性标签和第一类属性标签满足预设的对应关系。
在一些可能的实施例中,预设实体文档模型集合中,每一个实体文档模型对应一个预设子集,所述预设子集里面包括该实体文档模型的若干预设结构表征数据;
将文字数据录入选定的实体文档模型,生成结构化档案数据,步骤包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南文盾信息技术有限公司,未经湖南文盾信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110999809.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电机定子铁心叠片装置
- 下一篇:一种固化时间可控的水泥砂浆及其制备方法