[发明专利]信息处理设备、信息处理方法及计算机程序产品无效
申请号: | 201110273992.1 | 申请日: | 2011-09-07 |
公开(公告)号: | CN102402576A | 公开(公告)日: | 2012-04-04 |
发明(设计)人: | 大黑庆久 | 申请(专利权)人: | 株式会社理光 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 曾贤伟;杨继平 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息处理 设备 方法 计算机 程序 产品 | ||
相关申请的交叉引用
本申请主张于2010年9月14日在日本递交的日本专利申请No.2010-206117的优先权,并将其全部内容并入本文作为参考。
技术领域
本发明涉及将在图像数据中包括的手写字符数字化以使手写字符变得可搜索的信息处理设备、信息处理方法及计算机程序产品。
背景技术
存在用于将在图像数据中包括的手写字符数字化的多个现有技术。例如,日本专利申请公开No.2008-181485公开了一种用于将在文档上额外手写的字符等和文档一起被数字化的技术。同样,例如,日本专利申请公开No.08-137895公开了一种作为提高文档搜索的准确性的技术,该技术用于划分复合词(compound)输入以自动产生搜索关键词。
关于搜索技术,特别在语音识别领域,已知词语辨识方法。该技术在语音识别过程中从用户的语音中仅提取在词典中注册的词语,因此该技术能够提高识别的准确性和处理速度(参见“Word Spotting Speech”,Journal of Japan Society for Fuzzy Theory,11(3),403-407(1999))。日本专利申请公开No.2002-278579公开了一种技术,该技术通过将词语辨识方法应用到语音搜索而提高了语音搜索的准确性和处理速度。同样,日本专利申请公开No.10-055371还公开了一种技术,该技术基于模式匹配将词语辨识方法应用到搜索并通过模式匹配搜索手写注解。作为用于在搜索等过程中将复合词划分成基本词语的技术,已知形态分析(morphological analysis),并且在日本专利申请公开No.08-137895中也应用了形态分析。
随着近来数字照相机的普及,存在更多机会来拍摄在上面书写了文字的白板以及使用白板中的图像数据作为会议笔记、备忘录等的一部分。同样,经常地,在凸版印刷品上手写评论,使用扫描仪将凸版印刷品转换为图像数据,并电子地累积图像数据。如此,包括手写字符的图像数据趋于增加,并且随着累积量的增加,搜索手写内容的请求增加。
具体地,在使用手写字符的许多情况下,由于使用了例如词语和短语等句子片段而不是使用一个在语法上完整的句子,并且除了手写绘图之外仅重要的关键词和短语是手写的,并且文本不构成一条完整的信息,而是通常在不经过适当分类和整理的情况下累积文本。因此,如果将在手写文档上的手写字符被数字化(被转换为文本),则即使从大量没有经过整理的手写文档中提取包括用户希望的搜索词语的部分也变得容易,从而有效使用手写文档变得容易。
当将图像数据中的手写字符转换为文本以接受通常的文本搜索时,需要提高手写字符识别的准确性和搜索的准确性及处理速度。特别地,由于与印刷物相比,手写字符具有高的个性化并且经过不同的修改,因此在当前的手写字符识别技术中,与印刷字符识别相比识别的准确性低。由于该原因,为了提高用户的满意度,需要提高识别的准确性和搜索的准确性及处理速度。
发明内容
本发明的目的是至少部分地解决现有技术中的问题。
根据本发明的一个方面,提供一种信息处理设备,该信息处理设备使用图像数据和文本信息的复合数据作为搜索目标,通过将字符信息转换成文本来获得文本信息,该字符信息是图像数据中包括的原始图像数据,并且通过将转换成的文本与图像数据进行结合来获得复合数据,所述信息处理设备包括:词典,用于存储多个词语;字符信息提取单元,用于从图像数据中提取和识别字符信息;搜索目标词语提取单元,用于将识别出的并与词典中保存的词语对应的字符信息转换成文本,将所转换成的文本插入到搜索目标数据中,及在数据库中存储搜索目标数据;搜索文本输入单元,用于接收作为搜索目标的文本信息的输入;搜索词语提取单元,用于基于作为搜索目标的文本信息,提取在词典中包括的词语作为搜索词语;以及搜索单元,用于对照数据库来检查搜索词语。
根据本发明的另一个方面,提供一种信息处理方法,该信息处理方法使用图像数据和文本信息的复合数据作为搜索目标,通过将字符信息转换成文本来获得文本信息,该字符信息是图像数据中包括的原始图像数据,并且通过将转换成的文本与图像数据进行结合来获得复合数据,所述信息处理方法包括:从图像数据中提取字符信息并识别被提取的字符信息;提取搜索目标数据,其包括:将识别出的并与保存了多个词语的词典中保存的词语对应的字符信息转换成文本,将所转换成的文本插入到搜索目标数据中,及在数据库中存储搜索目标数据;提取搜索词语,其包括:基于作为搜索目标的文本信息,提取在词典中包括的词语作为搜索词语;以及对照数据库来检查搜索词语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社理光,未经株式会社理光许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110273992.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种双纱线槽的编织横机用纱嘴
- 下一篇:蓝牙超声波触摸屏