[发明专利]字符识别装置和字符识别方法有效
申请号: | 201510313899.7 | 申请日: | 2015-06-09 |
公开(公告)号: | CN105320971B | 公开(公告)日: | 2018-11-16 |
发明(设计)人: | 堤庸昂;中岛和树 | 申请(专利权)人: | 株式会社日立信息通信工程 |
主分类号: | G06K9/68 | 分类号: | G06K9/68 |
代理公司: | 北京林达刘知识产权代理事务所(普通合伙) 11277 | 代理人: | 刘新宇 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字符 识别 装置 方法 | ||
提供高精度且高速地识别包括简体文字和繁体文字的汉字的字符识别装置和字符识别方法。运算部(150)将同形字符表保存在字符辨别用辞典(165)中,参照该同形字符表中保存的候选字符来进行字符识别,其中,该同形字符表是将以下字符图像作为相似度高的同形字符进行分组而得到的:将由多个区域的汉字要素构成的汉字按每个区域进行分割所得到的汉字结构相同、且同一区域位置的汉字要素之间的基于余弦相似度的相似度高于规定值的字符图像;以及汉字要素之间的通过欧几里德距离值计算步骤计算出的欧几里德距离值小于规定值的字符图像。
技术领域
本发明涉及一种能够高精度地识别票据(日语:帳票)等中写入的手写字符的字符识别装置和字符识别方法,特别涉及一种能够高精度且高速地识别以中国内地的简体文字、中国台湾的繁体文字写入的汉字字符的字符识别装置和字符识别方法。
背景技术
以光学方式读取票据等中记载的手写汉字来进行字符识别的字符识别装置构成为:提取按每个字符切取出的字符图形的特征,由于汉字构造是由位于汉字的左侧的偏(日语:へん)、位于汉字构造的右侧的旁(日语:つくり)、位于汉字构造的上侧的冠(日语:かんむり)、位于汉字构造的下侧的脚(日语:あし)、位于包围汉字构造整体的位置的构(日语:かまえ)、位于从汉字的上侧下垂到下侧的位置的垂(日语:たれ)以及位于从汉字构造的左侧沿着下侧的位置的绕(日语:にょう)这样的配置于多个区域的汉字要素的组合构成的,因此,判别用于分割各区域的分割区域,并且使用欧几里德(Euclid)距离值来提取字符图像的特征量,从而进行字符识别。
基于该以往技术的字符识别处理构成为通过由字符识别装置的计算机执行如图18所示的以下步骤来进行字符识别:步骤S1801,提取字符图像的特征;步骤S1802,基于通过该步骤S1801提取出的特征量来判定字符图像是汉字还是非汉字;步骤S1804,计算通过该步骤S1802进行了判定的字符图像的欧几里德距离值;步骤S1803,判别汉字的字符图像的部首等分割区域;步骤S1805,计算通过步骤S1803进行了区域判定的字符图像的进行n分割得到的每个区域的余弦相似度;步骤S1806,将通过该步骤S1805计算出的相似度与同形字符表进行比较来选择同形字符和相似字符候选;步骤S1807,基于通过上述步骤S1804计算出的欧几里德距离以及通过步骤S1806选择出的同形字符和相似字符候选来判定识别候选的字符;以及步骤S1808,输出通过该步骤S1807判定出的字符候选的判定结果。另外,上述同形字符表按共同的部首、旁等将汉字进行分类,并且按人目视时相像的字形将汉字进行分类。
通过上述步骤S1807,候选判定使用以下条件来进行识别字符候选的判定:(1)根据通过步骤S1802得到的汉字、非汉字结果来选择候选;(2)选择通过步骤S1804得到的欧几里德距离值小的候选;(3)选择通过步骤S1805得到的余弦相似度高的候选;(4)选择在一部分分割区域中余弦相似度高的候选;以及(5)选择余弦相似度大的字符类型(日语:字種)所属的同形字符分类表,其中,通过图22所示的公式来计算上述欧几里德距离值和余弦相似度,其中,x为输入图案矢量,μ为平均图案矢量。
即,以往的字符识别处理构成为通过将字符图像的欧几里德距离值、余弦相似度、区域分割以及同形字符表比较这样的各种技术进行组合来决定识别字符候选。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社日立信息通信工程,未经株式会社日立信息通信工程许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510313899.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:卡处理装置及自动交易装置
- 下一篇:一种视频人脸活体检测方法