[发明专利]一种基于最大熵的文字识别方法和识别装置无效
申请号: | 201010221901.5 | 申请日: | 2010-06-29 |
公开(公告)号: | CN101901355A | 公开(公告)日: | 2010-12-01 |
发明(设计)人: | 李健;张连毅;武卫东 | 申请(专利权)人: | 北京捷通华声语音技术有限公司 |
主分类号: | G06K9/68 | 分类号: | G06K9/68 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 100193 北京市海淀区东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 最大 文字 识别 方法 装置 | ||
技术领域
本发明涉及手写识别技术领域,特别是涉及一种基于最大熵的文字识别方法和识别装置。
背景技术
手写识别(Handwriting Recognize),是指将在手写设备上书写时产生的轨迹信息转化为汉字内码的过程,实际上是手写轨迹的坐标序列到汉字的内码的一个映射过程,是人机交互最自然、最方便的手段之一。随着智能手机、掌上电脑等移动信息工具的普及,手写识别技术也进入了规模应用时代。手写识别能够使用户按照最自然、最方便的输入方式进行文字输入,易学易用,可取代键盘或者鼠标。
在手写识别中,需要处理不同人不同的书写笔顺和连笔书写的问题。每个识别引擎在识别时的侧重点不同,有的识别引擎对连笔书写(笔顺正确)的字符能有很高识别率,但对笔顺错误的字符就不能正确识别;有的识别引擎对字符笔顺不敏感,笔顺是否错误并不影响识别正确率,但对是否正楷书写比较敏感,连笔书写字符的识别效果会差一些,在笔顺错误时反而能够给出较好的结果。
现有技术对手写字符的识别中,一般采用多个识别引擎共同决策,根据各个识别结果进行综合考虑、综合判断,最终给出识别结果。由于用户在汉字输入时多数情况下是笔顺正确的,此方法存在两个缺点:多数情况下,一个识别引擎能给出正确结果,而当多个识别引擎共同决策时,识别结果反而不正确;并且,多个识别引擎进行识别,加大了工作量,降低了计算效率。在具体应用时,例如,输入一个笔顺正确、非常潦草的“建”字,连笔引擎识别结果正确,但无笔顺引擎识别错误,两者综合考虑,最终识别结果可能会错误。再例如,输入一个正楷书写但笔顺错误的“讯”字,无笔顺引擎识别正确,但连笔引擎识别结果错误,两者综合考虑,最终识别结果也可能会错误。
总之,需要本领域技术人员迫切解决的一个技术问题就是:如何能够提供一种基于最大熵的文字识别技术方案,在保证更高识别结果正确的前提下,提高识别效率。
发明内容
本发明所要解决的技术问题是提供一种基于最大熵的文字识别方法和识别装置,在保证识别结果正确的同时,能够提高识别效率。
为了解决上述问题,本发明公开了一种基于最大熵的文字识别方法,包括:
A1,将训练样本输入到各个识别引擎中进行特征提取,获得特性信息;
A2,依据所述特征信息构建最大熵训练模型;
A3,针对用户输入的手写轨迹,逐个选取单一识别引擎进行识别,将识别得到的特征信息输入到最大熵训练模型中,由最大熵训练模型输出判定结果;
其中,当单一识别引擎对应的判定结果满足预置判定值时,停止下一识别引擎的识别,将当前识别引擎对应的识别结果输出;当单个识别引擎对应的判定结果均不满足预置判定值时,对多个识别引擎的识别结果共同决策进行输出。
进一步,所述特征信息为:第一候选字的编码、识别距离、第一候选字是否正确的判定。
进一步,所述判定结果代表了在该识别引擎中,与特征信息相对应的第一候选字正确的概率大小。
优选的,所述识别引擎包括:无笔顺识别引擎和连笔识别引擎。
优选的,所述步骤A3包括:
针对用户输入的手写轨迹,选取无笔顺识别引擎进行识别,并将识别得到的特征信息输入到最大熵训练模型中,由最大熵训练模型输出判定结果;
判断无笔顺识别引擎对应的判定结果是否满足预置判定值;若是,则停止识别,将无笔顺识别引擎对应的识别结果输出;若否,则选取连笔识别引擎进行识别,并将识别得到的特征信息输入到最大熵训练模型中,由最大熵训练模型输出判定结果;
判断连笔识别引擎对应的判定结果是否满足预置判定值;若是,则停止识别,将连笔识别引擎对应的识别结果输出;若否,则由无笔顺识别引擎和连笔识别引擎的识别结果共同决策进行输出。
此外,本发明还公开了一种基于最大熵的文字识别装置,包括:
特征提取单元,用于将训练样本输入到各个识别引擎中进行特征提取,获得特性信息;
模型训练单元,用于依据所述特征信息构建最大熵训练模型;
多个识别引擎,用于针对用户输入的手写轨迹进行识别;
引擎控制单元,用于逐个选择触发单一识别引擎进行识别操作,以及将识别引擎识别到的特征信息输入到模型训练单元中,由最大熵训练模型输出判定结果;其中,当单一识别引擎对应的判定结果满足预置判定值时,停止触发下一识别引擎,并触发识别输出单元将当前识别引擎对应的识别结果输出;当单个识别引擎对应的判定结果均不满足预置判定值时,触发识别输出单元对多个识别引擎的识别结果共同决策进行输出;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷通华声语音技术有限公司,未经北京捷通华声语音技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010221901.5/2.html,转载请声明来源钻瓜专利网。