[发明专利]识别装置、识别方法及记录介质有效
申请号: | 201580078065.0 | 申请日: | 2015-05-11 |
公开(公告)号: | CN107533652B | 公开(公告)日: | 2021-01-12 |
发明(设计)人: | 铃木智久 | 申请(专利权)人: | 株式会社东芝;东芝数字解决方案株式会社 |
主分类号: | G06K9/72 | 分类号: | G06K9/72 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 徐殿军 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 装置 方法 记录 介质 | ||
一种识别装置将被禁止的字符串等效率良好地排除,将字符串精度良好地识别。识别装置具备:候选检测部,从输入图像中检测字符候选,上述字符候选是被推测为包含字符的像素的集合;识别部,对上述字符候选的每一个进行识别,生成至少1个识别候选,上述识别候选是识别结果的候选的字符;对照部,将上述至少1个识别候选的每一个与将识别对象的字符串模型化而得到的知识辞典对照,生成将被推测为包含在上述输入图像中的字符串与知识辞典对照而得到的对照结果;以及禁用处理部,在上述对照结果中,删除将包含禁止对象的字符串在内的字符串与知识辞典对照而得到的对照结果。
技术领域
本发明的实施方式涉及识别装置、识别方法及记录介质。
背景技术
作为进行字符识别中的知识处理的方法,已知有将识别对象的字符串模型化而保存到知识辞典中、将符合模型的字符串作为知识辞典的结果的方法。例如,已知有以下这样的系统,该系统具备:登录有想要对照的单词的单词辞典部、和具有受理登录在单词辞典部中的单词的有限自动机的单词对照部,将有限自动机受理的单词作为知识处理的结果输出(例如,参照专利文献1)。此外,已知有通过将用上下文无关文法记述的地名表述与字符识别候选对照来进行知识处理的技术(例如,参照专利文献2)。
发明内容
但是,在将识别对象的字符串模型化、将知识处理的结果限定为符合模型的字符串的以往的技术中,作为知识处理的结果难以将不可能的字符串及不自然的字符串等效率良好地排除。例如,在英文中元音字连续5字符以上的字符串作为单词是不自然的,但在以往的技术中,难以将这样的字符串效率良好地排除。
本发明要解决的课题是将不会被使用的字符串及被禁止使用的字符串等效率良好地排除,精度良好地识别字符串。
有关技术方案的识别装置具备:候选检测部,从输入图像中检测字符候选,上述字符候选是被推测为包含字符的像素的集合;识别部,对上述字符候选的每一个进行识别,生成至少1个识别候选,上述识别候选是识别结果的候选的字符;对照部,将上述至少1个识别候选的每一个与将识别对象的字符串模型化而得到的知识辞典对照,生成将被推测为包含在上述输入图像中的字符串与知识辞典进行对照而得到的对照结果;以及禁用处理部,在上述对照结果中,删除将包含禁止对象的字符串在内的字符串与知识辞典进行对照而得到的对照结果。
根据上述构成的识别装置,能够有效地排除不会使用的字符串及使用禁止的字符串等,能够使字符串精度良好地识别。
附图说明
图1是表示有关实施方式的识别装置10的结构的图。
图2是表示有关实施方式的识别装置10的处理的流程图。
图3是表示输入图像的一例的图。
图4是表示样式数据的结构的图。
图5是表示从输入图像生成一系列的字符候选的处理的图。
图6是表示片断数据的结构的图。
图7是表示片断编号的一例的图。
图8是表示字符候选数据的结构的图。
图9是表示字符候选编号的一例的图。
图10是表示字符候选的起点编号及终点编号的一例的图。
图11是表示字符候选矩阵的一例的图。
图12是表示字符识别辞典的结构的图。
图13是表示识别候选的排列的结构的图。
图14是表示知识辞典的结构的图。
图15是表示禁用辞典的结构的图。
图16是表示第一非确定有限自动机的一例的图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社东芝;东芝数字解决方案株式会社,未经株式会社东芝;东芝数字解决方案株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201580078065.0/2.html,转载请声明来源钻瓜专利网。