[发明专利]字形特征字典制作装置及具备该装置的文档图像处理装置有效

专利信息
申请号: 200710129607.X 申请日: 2007-07-23
公开(公告)号: CN101354704A 公开(公告)日: 2009-01-28
发明(设计)人: 吴波;窦建军;乐宁;吴亚栋;贾靖 申请(专利权)人: 夏普株式会社
主分类号: G06F17/30 分类号: G06F17/30;G06K9/72;G06K9/46
代理公司: 北京集佳知识产权代理有限公司 代理人: 雒运朴;徐谦
地址: 日本*** 国省代码: 日本;JP
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 字形 特征 字典 制作 装置 具备 文档 图像 处理
【说明书】:

技术领域

本发明涉及将文档作为图像来输入并存储的字形特征字典制作装置以及具备该装置的文档图像处理装置,特别是涉及具有对于所存储的文档图像的检索功能的文档图像处理装置。

背景技术

一种利用图像扫描仪等图像输入装置将文档转换成图像,并以电子方式进行存储,且在之后可以检索的文档归档装置已得到实用化。关于这样的文档归档装置的技术,已公开在中国专利申请公开公报CN1402854A、中国专利申请公开公报CN1535430A、以及中国专利申请公开公报CN1851713A中。

在对于作为图像数据而读取的文档图像进行检索时,需要进行对各文档图像人工附加用于检索的索引信息的作业,因而非常消耗劳力。

另外,还提出了一种定位文档图像的文字区域(文本区域),进行OCR(Optical Character Reader)识别,并可利用文本内容进行全文检索的装置。作为利用了OCR识别的以往技术,例如有日本专利申请公开公报特开平7-152774号所述的技术。

然而,在OCR识别中存在着需要进行大量的计算而消耗时间的问题。并且,由于文字识别率不高,所以还存在着因误识别而检索不到的可能性,在检索精度上存在问题。

另一方面,在日本专利申请公开公报特开平10-74250号公报中,公开了一种不使用OCR识别,而可自动进行全文检索的技术。

上述公报的构成中,准备好将预先利用图像特征对文字进行类似的每一个文字分类到类似文字类别中的类别字典。然后,在登记文档图像时,对文本区域(文字区域)的各文字不进行文字识别,而抽出图像特征,并根据图像特征分类到文字类别中,将对按照每一个文字识别出来的类别列与输入图像一同储存。在进行检索时,将检索关键词的各文字转换为对应的类别,且将在一部分中包含被转换的类别列的文档图像作为检索结果取出。

而且,作为基于该构成的效果,记载了可提供一种在文档登记时能够以少的计算机能力高速地进行登记处理,并且在检索时可实现遗漏少的检索的文档归档装置。

这些特征抽出方法,根据成为对象的文字的种类等的不同,有时可以充分地抽出特征,有时不能抽出特征。由此,存在以下的问题:根据选择的抽出方法的不同,使辞典的制作及文档图像的特征抽出变得不充分,其结果涉及文本检索的检索精度也不能得到充分的效果。

发明内容

本发明的目的是,提供对文字的特征抽出方法进行改进,使检索精度进一步提高的字形特征字典制作装置及具备该装置的文档图像处理装置。

本发明是一种字形特征字典制作装置,其特征在于,具有:抽出部,根据两个或两个以上特征抽出方法,以一个文字为单位抽出文字图像的图像特征;计算部,将按照每个特征抽出方法抽出的图像特征进行矢量化的同时,合成每个特征抽出方法的特征矢量并计算出合成矢量;存储部,将计算出的合成矢量作为图像特征以一个文字为单位进行储存。

根据本发明,抽出部根据两个或两个以上特征抽出方法,以一个文字为单位抽出文字图像的图像特征。计算部,将按照每个特征抽出方法抽出的图像特征进行矢量化的同时,合成每个特征抽出方法的特征矢量并计算出合成矢量。将计算出的合成矢量作为图像特征以一个文字为单位储存在存储部中。

由此,可以储存基于两个或两个以上特征抽出方法的图像特征,因此,通过将制作的字形特征字典用于检索来可提高检索精度。

另外,本发明的特征在于,上述计算部基于按照每个特征抽出方法决定的权重对每个特征抽出方法的特征矢量进行加权,合成被加权后的特征矢量并计算出合成矢量。

另外,根据本发明,上述计算部,基于按照每个特征抽出方法决定的权重对每个特征抽出方法的特征矢量进行加权,合成被加权后的特征矢量并计算出合成矢量。

通过加权,可以计算出将基于两个或两个以上特征抽出方法的特征矢量以最优的比例合成后的合成矢量。

另外,本发明的特征在于,上述计算部,根据文字图像的字体种类来设定上述权重,计算出每个字体种类的合成矢量,并从每个字体种类的合成矢量中决定一个代表矢量,

上述存储部,将所决定的代表矢量作为图像特征进行储存。

根据本发明,上述计算部,根据文字图像的字体种类来设定上述权重,并计算出每个字体种类的合成矢量。进而从按照每个字体种类计算出的合成矢量中决定一个代表矢量,并将该代表矢量作为图像特征进行储存。

由此,可以不受检索对象的文字的字体种类的影响,进一步提高检索精度。

另外,本发明的特征在于,上述计算部,依照学习矢量量化方法,来决定代表矢量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于夏普株式会社,未经夏普株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200710129607.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top