[发明专利]原稿提取方法和原稿提取装置有效

专利信息
申请号: 200810131693.2 申请日: 2008-07-23
公开(公告)号: CN101354717A 公开(公告)日: 2009-01-28
发明(设计)人: 广畑仁志 申请(专利权)人: 夏普株式会社
主分类号: G06F17/30 分类号: G06F17/30;G06K9/20
代理公司: 北京市柳沈律师事务所 代理人: 吕晓章
地址: 日本*** 国省代码: 日本;JP
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 原稿 提取 方法 装置
【说明书】:

技术领域

发明涉及从原稿的数据库中检索特定的原稿的技术,更详细地说,涉及基于由扫描仪读取原稿后的图像等原稿数据,从数据库中检索与读取了的原稿对应的原稿数据的原稿提取方法和原稿提取装置。

背景技术

以往,利用将使用扫描仪读取文本或照片等构成的原稿而得的数据,或使用个人计算机(PC)等电子式生成的原稿数据存储在数据库中,新读取原稿,并从数据库中提取与读取了的原稿对应的原稿数据的技术。作为提取原稿数据的方法,例如提出使用OCR(Optical Character Reader,光学字符识别)从读取的原稿中提取关键字(keyword)并基于关键字判定原稿的类似度的方法、将原稿限定于有格线的票据原稿并提取格线的特征来判定原稿的类似度的方法等。

在(日本)特开平7-282088号公报中,公开了将对原稿(文本)赋予特征的描述符(descriptor)和由描述符赋予特征的原稿的列表相关联,从读取了的原稿(输入文本)生成描述符,并使用生成了的描述符进行原稿的核对的技术。原稿的描述符被规定为相对于伴随原稿的读取而产生的失真等不变。对一个原稿生成多个描述符,对与从读取了的原稿生成的描述符分别相关联的原稿进行投票,选择得到最高得票数的原稿或得票数超过规定的阈值的原稿。

特开平5-37748号公报中公开了预先存储原稿的图像数据,在读取的原稿的位图数据(bitmap data)和预先存储的原稿的位图数据之间,以1比特为单位进行图形匹配,从而进行原稿的检索的技术。此外,特开平5-37748号公报中,记载了在由多页构成的原稿的情况下,也可以为检索用而仅读取封面的页,通过对读取的页的图像数据和存储的各原稿的第一页的图像数据进行比较,从而检索原稿。

在特开2006-31181号公报中,公开了预先存储文本图像,对读取的原稿图像的特征量和存储的文本图像的全部页的特征量进行比较,从而求类似度,提取类似度比阈值高的文本图像,从而检索文本图像的技术。在该技术中,在多个文本图像成为候选的情况下,显示文本图像从而接受用户选择,而且在文本图像中包含的页的类似度的平均低于阈值的情况下,将该文本图像从候选中删除从而缩小范围。

通常,文本等原稿由多页构成的情况较多。以特开平7-282088号公报所公开的技术为首的以往的技术能够进行与扫描仪所读取的原稿的核对从而从数据库中提取所需的原稿数据,但对于由多页构成的原稿需要对每页进行核对从而提取原稿数据。从而,在因丢失或污浊等而在核对基础的原稿中产生了缺失的情况下,存在不能在全部页中提取由多页构成的原稿相关的原稿数据的问题。在特开平7-282088号公报中关于该问题的解决手段没有任何公开。

而且如特开平5-37748号公报中记载的这样的对由多页构成的原稿的位图数据进行比较的技术中,由于对每页进行比较,所以存在原稿中包含的页数和原稿数越多,则比较处理越花费时间的问题。此外,在进行位图数据的比较的情况下,需要高精度地进行比较的两个图像数据的定位。但是,实际上难以准确地进行定位,其结果,存在难以高精度地检索原稿的问题。

此外,在特开2006-31181号公报所记载的技术中,作为文本图像的字符区域中的特征量,由于使用OCR提取字符码,所以根据提取的字符码,产生类似判定的精度降低的问题。为了弥补该精度降低,考虑提取多个字符码,但在该情况下,存在存储字符码的存储器容量增大,而且由于使用很多数据进行检索,所以处理消耗时间的问题。此外,在特开平5-37748号公报和特开2006-31181号公报中,由于没有考虑包含秘密信息的原稿被检索的情况,所以存在包含秘密信息的原稿被容易地输出的担心。

发明内容

本发明鉴于这样的情况而完成,其目的在于提供一种通过使得基于原稿的一部分也能够提取原稿的其它部分的数据,从而能够容易地从数据库中提取与由多页构成的原稿相关的原稿数据的原稿提取方法和原稿提取装置。

本发明的其它目的在于提供一种在提取原稿数据时,能够避免错误地提取与目的不同的原稿数据的情况的原稿提取方法和原稿提取装置。

此外本发明的其它目的在于通过规定用于输出原稿的条件从而能够保护秘密信息的原稿提取方法和原稿提取装置。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于夏普株式会社,未经夏普株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200810131693.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top