[发明专利]文件归档方法、装置、电子设备、及存储介质有效
申请号: | 201910304382.X | 申请日: | 2019-04-16 |
公开(公告)号: | CN110020646B | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 赵岩;黄业博;李杰 | 申请(专利权)人: | 恒生电子股份有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06F16/13;G06F16/16 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 李慧引;王宝筠 |
地址: | 310053 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文件 归档 方法 装置 电子设备 存储 介质 | ||
本申请提供了一种文件归档方法、装置、电子设备、及储存介质,其中,所述文件归档方法包括:对文件图像进行拆分,得到文件图像的文字区域块集合和文件图像的线性结构集合;其中,文件图像的文字区域块集合包括首行文字区域块和尾行文字区域块;将文件图像的文字区域块集合中的文字和文件图像的线性结构集合中的线性结构,分别在档案任务库中进行匹配,得到匹配档案任务;其中,匹配档案任务为:在档案任务库中与文件图像的文字区域块集合中的文字相匹配的档案任务,和/或与文件图像的线性结构集合中的线性结构相匹配的档案任务;将文件图像录入到所述匹配档案任务,采用上述方式对文件图像进行录入,提高了录入系统的准确率和自动化程度。
技术领域
本发明涉及数据处理技术领域,具体涉及一种文件归档方法、装置、电子设备、及存储介质。
背景技术
现今,许多纸质文件需要存档留底,而传统纸质保存档案的方式已经不能满足现在社会的需求,并且在保存过程中衍生了一系列的保存问题。
随着科学技术的发展,现今存档主要采用录入系统的电子存档方式,但是由于诸多因素,录入系统在进行档案录入存储时无法做到完全无纸化、数据化。而且在录入过程中,系统自动化程度太低,需要操作员对录入文件进行拍照或扫描,而在拍照过程中则需要操作员逐一人工校验才能录入。
由于整个录入系统的操作步骤多为繁琐复杂的人机交互,带来的是过高的人工-时间成本和低容错率的采集过程,为了缩减人工-时间成本和提高录入的容错率,急需提高录入系统的自动化程度和准确度。
发明内容
有鉴于此,本发明提供了一种文件归档方法、装置、电子设备、及存储介质,采用文字特征匹配和线性特征匹配的录入方式提高录入系统的自动化程度和准确度。
为了实现上述目的,本发明实施例提供了如下技术方案:
本发明第一方面公开的一种文件归档方法,包括:
对文件图像进行拆分,得到所述文件图像的文字区域块集合和所述文件图像的线性结构集合;其中,所述文件图像的文字区域块集合包括首行文字区域块和尾行文字区域块;
将所述文件图像的文字区域块集合中的文字和所述文件图像的线性结构集合中的线性结构,分别在档案任务库中进行匹配,得到匹配档案任务;其中,所述匹配档案任务为:在所述档案任务库中与所述文件图像的文字区域块集合中的文字相匹配的档案任务,和/或与所述文件图像的线性结构集合中的线性结构相匹配的档案任务;
将所述文件图像录入到所述匹配档案任务。
可选地,上述文件归档方法中,对文件图像进行拆分,包括:
对所述文件图像进行二值化处理,得到所述文件图像的线性结构集合以及二值化文件图像;
对所述二值化文件图像进行图像处理操作,得到处理后的文件图像,其中,所述图像处理操作包括:膨胀操作和腐蚀操作中的至少一种操作;
对处理后的文件图像截取首行文字作为所述文件图像的首行文字区域块,截取尾行文字作为所述文件图像的尾行文字区域块。
可选地,上述文件归档方法中,对所述二值化文件图像进行图像处理操作,得到处理后的文件图像之后,还包括:
若对所述处理后的文件图像未截取到首行文字区域块,则向所述处理后的文件图像截取离首行区域最近的文字作为所述首行文字区域块;
若对所述处理后的文件图像未截取到尾行文字区域块,则向所述处理后的文件图像截取离尾行区域最近的文字作为尾行文字区域块。
可选地,上述文件归档方法中,将所述文件图像的文字区域块集合中的文字在档案任务库中进行匹配,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于恒生电子股份有限公司,未经恒生电子股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910304382.X/2.html,转载请声明来源钻瓜专利网。