[发明专利]数据处理方法及装置、文件识别方法及工具无效
申请号: | 200910243216.X | 申请日: | 2009-12-29 |
公开(公告)号: | CN102110102A | 公开(公告)日: | 2011-06-29 |
发明(设计)人: | 谢成辉 | 申请(专利权)人: | 北大方正集团有限公司;北京方正电子政务信息科技有限公司;北京北大方正电子有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/20 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 100871 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 文件 识别 工具 | ||
技术领域
本发明涉及数据处理领域,尤其是涉及一种数据处理方法、一种数据处理装置、一种文件识别方法及一种文件识别工具。
背景技术
当前对信息化的重视程度越来越强,对档案信息的公开、检索利用、系统网络化要求越来越高,通过对档案系统进行数字化处理,可以对档案馆的数据进行统一管理、统一查询,同时可以对数字化后的各类档案进行全文检索、在线利用等操作,提高档案的利用率。
但是,由于各家档案馆保存档案的时候都比较长,很多有几十年甚至上百年,在计算机发展过程中,不同的档案馆使用的档案管理产品也不完全相同,导致了存储的数据保存格式的多样性,例如,目前使用较多的数据保存格式包括:DBF数据库数据保存格式,Access访问数据库数据保存格式、Excel表格数据保存格式、Txt文本文件数据保存格式、Sybase单机片数据库数据保存格式、SQL Server(Structured Query Language,结构化查询语言管理,是一个关系数据库管理系统)数据库数据保存格式、Oracle(甲骨文)数据库数据保存格式等等。并且,对于每一家档案馆而言,自身都至少有若干种档案,如文书档案、科技档案、会计档案、各种专题档案等等,每一种档案的数据保存格式可能也不完全相同。
因此,对档案馆进行数据迁移工作时,具有相当大的繁琐性,非常容易出错。在以往的数据迁移过程中,开发人员针对每一种数据保存格式都进行调整或开发,多次进行导致代码不具备重用性,每个项目中均可能作了重复的数据的导入,造成资源的浪费。
发明内容
本发明实施例提供了一种数据处理方法,用于降低数据迁移工作的繁琐性,提高数据迁移工作的准确率,节省资源,该方法包括:
获取源数据库中存储的记录信息,所述记录信息中包括与源数据字段对应的第一标识;
根据预设的映射关系,在目标数据库中确定与所述第一标识对应的第二标识,所述第二标识与所述目标数据库中的目标数据字段相对应;
将所述第一标识对应的源数据字段插入到所述第二标识对应的目标数据字段中。
本发明实施例还提供了一种文件识别方法,用于提高对合成文件识别的准确性,包括:
对当前合成的文件进行识别;
当所述合成的文件识别失败时,将所述合成的文件转化成单层可移植文档格式PDF文件;
当所述合成的文件识别成功时,将所述合成的文件转化成合成为双层PDF文件。
本发明实施例还提供了一种数据处理装置,用于降低数据迁移工作的繁琐性,提高数据迁移工作的准确率,节省资源,包括:
获取单元,用于获取源数据库中存储的记录信息,所述记录信息中包括与源数据字段对应的第一标识;
确定单元,用于根据预设的映射关系,在目标数据库中确定与所述第一标识对应的第二标识,所述第二标识与所述目标数据库中的目标数据字段相对应;
插入单元,用于将所述第一标识对应的源数据字段插入到所述第二标识对应的目标数据字段中。
本发明实施例还提供了一种文件识别工具,用于提高对合成文件识别的准确性,包括:
第二识别单元,用于对当前合成的文件进行识别;
第一生成单元,用于当所述合成的文件识别失败时,将所述合成的文件转化成单层可移植文档格式PDF文件;
第二生成单元,用于当所述合成的文件识别成功时,将所述合成的文件转化成合成为双层PDF文件。
在本发明实施例中,在数据迁移工作中,将源数据字段插入目标数据字段后,生成的结合数据字段与目标数据库中数据保存格式是相同的,目标数据库可以直接对其进行识别、解析,获取相应信息,能够提高数据迁移工作的准确率,屏蔽了不同保存格式的源数据结构之间的差异,避免了现有技术中提到的,在以往的数据迁移过程中,开发人员需要针对每一种数据保存格式都进行调整或开发,多次进行导致代码不具备重用性,每个项目中均可能作了重复的数据的导入,造成资源的浪费。
进一步,OCR识别工具在对合成的文件进行识别时,设定周期重启OCR识别工具,对合成的文件进行识别;和/或,对OCR识别工具进行监控,当监控到OCR识别工具退出时,重启OCR识别工具。通过对OCR识别工具进行监控,确定合成的文件的合法性,以及OCR识别工具是否导常退出,达到遍历、完成图片识别及PDF合成的合过程。
进一步,采用XML格式存储预设的映射关系时,由于XML格式的高扩展性及高兼容性,即使源数据格式与目标数据格式差别较大时,也可以通过较少的改动迅速地适应导入需求,屏蔽了不同保存格式的源数据结构之间的差异。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京方正电子政务信息科技有限公司;北京北大方正电子有限公司,未经北大方正集团有限公司;北京方正电子政务信息科技有限公司;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910243216.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:文档访问方法和终端设备
- 下一篇:基于优先级调度的传感器网络嵌入式操作系统