[发明专利]文档检索装置、文档检索程序、文档检索方法在审
申请号: | 201980065122.X | 申请日: | 2019-09-26 |
公开(公告)号: | CN112868001A | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 奥野好成;南拓也;武田领子;堀田创 | 申请(专利权)人: | 昭和电工株式会社 |
主分类号: | G06F16/332 | 分类号: | G06F16/332 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 舒艳君;王海奇 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 检索 装置 程序 方法 | ||
一种文档检索装置,具有:文档检索部,通过输入关键字对文档数据库进行检索,该文档数据库中保存有文档信息,该文档信息包含通过字符识别处理从文档图像数据中提取的文本数据,该文档图像数据通过对纸质文档进行图像化而得到;相似关键字选择部,根据与所述输入关键字之间的相似度,从由基于所述输入关键字生成的通配符字符串所组成的通配符字符串组中选择相似关键字,并且使所述文档检索部执行基于所述相似关键字的所述文档数据库的检索;以及输出部,输出针对所述文档数据库的、基于所述输入关键字的检索结果和基于所述相似关键字的检索结果。
技术领域
本发明涉及一种文档(document)检索装置、文档检索程序、文档检索方法。
背景技术
以经济高度成长期为中心的时代的技术开发中所制作的技术文档包括在纸质介质上通过手写而制作的文档。这些手写的技术文档是技术和技能的宝库,同时也可用于解决目前正在面对的技术课题。然而,就纸质文档的形态而言,存在由于被保存在仓库内因此获取较费时间、由于需要一页一页地对纸质文档进行确认因此找到理想的技术信息较费人力等的难点,另外还存在无法充分利用所保存的技术文档的问题。
另一方面,近年来,通过光学读取装置等将纸质文档等所包含的字符信息变换为图像数据作为电子数据,再对该图像数据实施光学字符识别(Optical CharacterRecognition:OCR)处理,从而将图像数据中包含的字符信息作为字符数据而提取,由此可对纸质文档等所包含的字符信息进行电子文件化。此外,针对上述手写的技术文档进行电子文件化,以可迅速地对其进行检索、阅览等的要求也日益提高。
现有技术中,针对手写的技术文档进行字符识别时的精度不足,因此正在对识别精度提高进行积极研究。例如,专利文献1中公开了一种技术,以提供一种通过降低检索噪音从而提高检索精度为目的。其中具有识别错误评价部,在与检索关键字不完全一致的情况下,可对检索结果字符串中发生识别错误的可能性进行判断,并具有对识别错误发生的可能性进行判断的过程。专利文献2中公开了一种使用索引表对原始文档内的字符进行识别的技术,通过连续的2个字符的组,可对置信度进行计算,该置信度用于表示上述字符在原始文档的一部分中存在的概率。
现有技术文献
专利文献
专利文献1:日本发明专利第3669626号公报
专利文献2:日本发明专利第5594134号公报
发明内容
本发明要解决的问题
在字符信息的错误识别较多的情况下,会发生即使对通过光学字符识别处理而获得的电子文件进行数字检索也找不到结果(无法命中)的问题。另一方面,如果通过模糊检索等在较大范围内进行检索,则可降低无法命中的可能性,并能提高检索的全面性,但需要牺牲检索的正确性。专利文献1和2中都没有给出提高检索的正确性的启示。
鉴于上述问题并且为了解决上述问题,本发明的目的在于提高关键字检索的命中率(hit rate),并防止错误检测。
用于解决问题的手段
本发明具有如下所述的构成。
[1]一种文档检索装置,具有:文档检索部,通过输入关键字对文档数据库进行检索,该文档数据库中保存有文档信息,该文档信息包含通过字符识别处理从文档图像数据中提取的文本数据,该文档图像数据通过对纸质文档进行图像化而得到;相似关键字选择部,根据与所述输入关键字之间的相似度,从由基于所述输入关键字生成的通配符字符串所组成的通配符字符串组中选择相似关键字,并且使所述文档检索部执行基于所述相似关键字的所述文档数据库的检索;以及输出部,输出针对所述文档数据库的、基于所述输入关键字的检索结果和基于所述相似关键字的检索结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昭和电工株式会社,未经昭和电工株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980065122.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:注射设备组件中的状态感测系统
- 下一篇:用于输送至少一根纱线的方法和装置