[发明专利]数字资源加工过程中的数据标引方法有效

专利信息
申请号: 200910079436.3 申请日: 2009-03-11
公开(公告)号: CN101833545A 公开(公告)日: 2010-09-15
发明(设计)人: 丁迎;王维娜 申请(专利权)人: 汉王科技股份有限公司
主分类号: G06F17/24 分类号: G06F17/24
代理公司: 北京瑞盟知识产权代理有限公司 11300 代理人: 王友彭;王玉华
地址: 100193 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数字 资源 加工 过程 中的 数据 标引 方法
【说明书】:

技术领域

发明属于文本处理领域,涉及一种数据标引方法,具体涉及一种数字资源加工过程中的数据标引方法。

背景技术

传统的纸张作为信息媒介存在着巨大的资源浪费,以图书为例,大量的有用和没用的信息都要印刷出成千上万册,经过存储、运输、批发、销售等耗资巨大的环节后送到读者面前,最终被束之高阁。这样不仅一方面社会资源和自然资源被严重浪费,另一方面信息无法永久保存,更谈不上信息的增殖。而随着人类社会需求的发展和信息的膨胀,为传统纸媒介所做的信息移植的代价越来越大。因此,随着互联网的普及和信息技术的快速发展,报纸、图书等纸质文档的电子化信息的提取对信息的共享和传播来说变得越来越重要。

对于数字资源加工后得到的电子文档数据,要进行更充分的利用,通常的做法是,在电子化后的文档数据上进行人工添加标引(比如书名,作者,摘要,出版日期等)后,导入数据库,便于查询和检索。

对于将纸质文档电子化的数字资源加工过程,工作效率直接取决于加工工具使用方式的便捷性,现有的数字资源加工方法,通常是先将纸制文档电子化,然后在电子化数据上添加标引,按照图像上某版面块的属性,将电子化数据的相关文字添加相应的标引属性。这种方式既包含了分析图像上某板面块所属属性的时间,又包括在电子化数据中查找相关信息添加标引的时间。

基于OCR的纸制文档电子化过程中,扫描后的图像文档,必需经过图像处理,版面分析,识别,校对,输出等环节。版面分析环节即将图像上需要识别的各个版面块标出。而版面分析所需画出的版面块和添加标引时对应的版面信息块,有着内在的联系,即一个版面块,既是识别需要的一个图像块,其内容又是有着某个标引属性的文字块。因为在加工过程中的版面分析环节已经对图像版面进行过一次分析,而加标引的过程需要对版面上的信息进行第二次的浏览与确认,大大降低了加工的工作效率,不利于电子资源的快速加工和传播。

发明内容

根据现有数字资源加工过程中所存在的问题,为提高数字资源加工的效率,本发明提出一种数字资源加工过程中的数据标引方法,该方法是在纸制文档电子化过程中的版面分析环节,依据识别所需要的图像版面块和添加标引需要的文字信息块的对应关系,在版面分析的同时,赋予版面框某种缺省标引属性,并可以方便的人工调整框的标引属性,最后利用识别结果文本和版面框的对应关系,自动完成数据标引工作,将版面分析和添加标引两个过程合二为一,大大提高了加工效率,并使添加标引的工作更直观易操作。

数字资源加工过程中的数据标引方法,包括以下步骤:

步骤1:将纸质文档进行扫描或打开已有的电子文档图像,将内容相关的一批图像制作成数据包;

步骤2:对制作成的数据包进行图像处理,得到待识别的图像数据包;

步骤3:对待识别的图像数据包进行版面分析,将图像上的各个版面画出版面框,并在版面框上标示出标引属性;

步骤4:对图像中的各版面进行OCR识别;

步骤5:对OCR识别出的结果进行校对和标引修正;

步骤6:利用修正后的识别结果文本和版面框,得到识别结果和标引属性的对应关系文件。

所述步骤3中,对每个版面框会自动添加缺省的标引属性,并根据匹配情况进行调整。

所述步骤3的标引属性中,种类和名称根据需要自行进行设置。

所述步骤5中,进行校对和标引修正时,将识别出的文字和对应标引的属性并排显示,并通过识别出的文字定位到原图像上对应的位置的方式来校对并修正识别出的文字和所属标引属性信息。

本发明数字资源加工过程中的数据标引方法,与现有技术相比,其优点在于:

1、本方法在版面分析的同时添加标引,在对图像上的内容进行一次分析的情况下,完成两种操作。相对于纸质文档电子化后,在电子化数据的基础上添加标引来说,少进行了一遍图像的内容的分析,大大提高了数字资源加工和添加标引的工作效率。

2、添加的标引可以通过标引定制工具进行自定义,对于不同的资源,定制不同的标引,扩大了数据加工的范围,提高了系统的通用性。

3、在OCR识别后的校对过程中,同时对添加标引进行校对,节省了额外进行标引检查的工作量,提高了标引的正确率和可靠性。

4、在校对识别结果的同时可以直观地对文字所属标引进行检查和修改。

附图说明

图1为本发明数字资源加工过程中的数据标引方法的方法流程图;

图2为本发明数字资源加工过程中的数据标引方法的版面默认标引示意图;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于汉王科技股份有限公司,未经汉王科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200910079436.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top