[发明专利]全文检索设备及全文检索方法无效
申请号: | 00134962.7 | 申请日: | 2000-12-13 |
公开(公告)号: | CN1300026A | 公开(公告)日: | 2001-06-20 |
发明(设计)人: | 龟代泰三;平野敬 | 申请(专利权)人: | 三菱电机株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/18 |
代理公司: | 中国专利代理(香港)有限公司 | 代理人: | 杨凯,叶恺东 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 全文 检索 设备 方法 | ||
本发明涉及例如根据识别文书或附图上记载的字符图像作成的文书·附图数据,用任意的关键字进行全文检索的全文检索设备及全文检索方法。
在蓄积了计算机能读取的电子化文本并用关键字进行电子化文本的检索处理的方法中,有以下两种方法:(1)对文本的内容和关键字一个字符一个字符地直接对照的方法、(2)预先抽出文本内出现的字符及其位置信息,作成索引,检索时用索引检验关键字和文本内的字符的位置关系的方法。
在上述(2)中根据作成索引的字符串的单位,能大致分为以下两种索引:连续的N(N为整数)个字符单位的索引;以及由包括单词、形态要素等文法要素的单位构成的索引。还有根据位置信息的记述内容来记述文本编号等的方法;以及除了文本编号以外记述文本内字符的出现位置的方法。
在上述(1)中,为了快速地进行文本和关键字的对照,需要在存储器中将文本展开,但如果保存的文本数增多,则在存储器中将文本展开的时间变长,所以发生不能快速检索的问题。可是,由于预先不作成索引也可以,所以在频繁地进行登录、删除的情况下较为方便。
上述(2)中,由于预先需要作成索引,所以与上述(1)相比,在删除时费时间,但一般说来,检索的处理时间比上述(1)少。因此,适合于不太频繁地进行登录、删除、处理大量文书的情况。
图21是表示例如特开平10-149367号公报所示的现有的全文检索设备(以下称现有例1)的结构图,该现有例1适用于有关上述(2)的索引作成方法。
图中,201是文本存储装置,202是主索引登录装置,203是副索引登录装置,204是主索引存储装置,205是副索引存储装置,206是副索引作成装置,207是主索引检索装置,208是副索引检索装置,209是关键字检索控制装置,210是关键字检索结果存储装置,211是检索条件输入装置,212是逻辑条件分析装置,213是检索结果输出装置。
其次说明工作情况。
用文本存储装置201存储的文本利用主索引登录装置202登录连续的N个字符的索引,利用主索引存储装置204进行存储。
检索时,利用从检索条件输入装置211获得的检索条件,通过关键字检索控制装置209检索主索引和副索引,获得检索结果。关键字检索结果存储装置210根据该检索结果,启动副索引作成装置206,对检索结果的件数(文本识别数)多的文本、或检索结果的文本内字符位置数和文本识别数之比大的文本,进行副索引的作成。
在现有例1中,除了N个字符索引的主索引以外,还保存副索引,开始时访问副索引,在副索引中不存在关键字的情况下,访问主索引。
主索引保存着文书编号和字符位置编号,副索引只保存文书编号。因此,与主索引相比,副索引的尺寸小,索引的检验处理也少。
在副索引内有关键字的N个字符索引的情况下,没有必要访问主索引,检索处理时间缩短。另外,根据检索履历,将检索的频度小的索引从副索引中删除,能缩小索引的尺寸。
其次,为了检索没有对文书进行字符编码(没有作成电子化文本)的文书图像,进行字符识别处理,从文书图像中抽出字符部分,由此来作成并保存电子化文本。例如,在特开平8-7033号公报中公开了这样的技术:作为字符识别的结果,保存多个各字符图像的识别候选字符,由此来提高包含正确解释解释的字符的比例。
图22是表示特开平8-7033号公报所示的现有的全文检索设备(以下称现有例2)的结构图,图中221是图像输入装置,222是输出装置,223是字符识别装置,224是文书检索装置,225是关键字输入装置,226是图像数据,227是文本信息,228是检索用文件。
其次说明工作情况。
在现有例2中,如果从图像输入装置221输入文书图像,便用字符识别装置223进行字符识别,将该识别候选字符存储在检索用文件228中。
由于存储多个识别候选字符,所以检索用文件228的记述使用识别候选字符数和识别候选字符,记述成[候选字符数]、[候选字符1]、[候选字符2]、…。
例如,对于称为“新文书编档”的字符图像来说,在存储多个识别候选字符的情况下,记述成:[1]新[4]丈文女交[1]书[1]フ[1]ア[1]イ[1]リ[1]ン[1]グ等。
检索时,文书检索装置224对检索用文件228内的文本和关键字进行对照,在识别候选字符中包含全部关键字和同一字符的情况下,认定对照成功。例如,对于“新文书编档”的文本来说,如果用关键字“文书”进行检索,则由于在[4][丈文女交][1][书]的识别候选字符内存在“文”及“书”,所以对照成功,并作为检索结果输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三菱电机株式会社,未经三菱电机株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/00134962.7/2.html,转载请声明来源钻瓜专利网。