[发明专利]一种在统一识别框架下手写体文本识别器的自然语言模型小型化的方法有效
申请号: | 201911259369.3 | 申请日: | 2019-12-10 |
公开(公告)号: | CN110990588B | 公开(公告)日: | 2023-04-11 |
发明(设计)人: | 高金锋;姚汝贤;马贺红;张瑜;张俊明;赖晗 | 申请(专利权)人: | 黄淮学院 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F17/18 |
代理公司: | 郑州浩翔专利代理事务所(特殊普通合伙) 41149 | 代理人: | 边延松 |
地址: | 463000 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 统一 识别 框架 手写体 文本 自然语言 模型 小型化 方法 | ||
本发明涉及智能手机、平板电脑、手提电脑、导航仪等移动智能终端的信息输入领域,具体地指一种在统一识别框架下手写体文本识别器的自然语言模型小型化的方法,通过存储词汇元组出现概率的传统模式向直接拟合一个泛化了的概率生成函数转变。
技术领域
本发明涉及智能手机、平板电脑、手提电脑、导航仪等移动智能终端的信息输入领域,具体地指一种在统一识别框架下手写体文本识别器的自然语言模型小型化的方法。
背景技术
伴随着移动计算(Mobile Computing)对无线通信、网络、移动技术、云端计算和移动智能终端的整合,笔式用户接口成为研究的热点。智能手机、平板电脑、手提电脑、导航仪等移动智能终端的迅猛发展使得手写体信息输入深受大家欢迎和认可。当前,此类设备主要以手写体单字(一次1个)输入辅以联想候选项集实现信息输入,这大大的限制了输入的自由性及速度;尽管也有一次输入数个单字(一次2、3个)的手写体串输入,但其识别率和速度还有待进一步提高。像人们平时写字一样,手写体文本输入(一次书写多行且每行多字)是进一步提高信息输入速度和自由度的最佳选择,必将进一步方便大家生产及生活。尽管以文本的形式手写输入信息较单字手写输入具有较高的速度且满足人类书写习惯,但手写体文本的识别却挑战巨大。该挑战主要源于手写体文本识别过程中的单字切分和识别产生的不确定性,即首先输入设备不能确定哪些笔画或部分组成一个手写体单字,其次单字识别过程中产生的误识别。因此,手写体文本识别需要经历一系列子专家模块的处理。如果让各子专家模块逐次做出判定,会导致前以子模块产生的错误传递给后续子专家模块,即错误累积,使手写体文本识别率极大地降低。另外,经过识别后的手写体文本为文本而非单字,具有自然语言特性,因此可借助信息融合技术消除以上各子专家模块处理时因不确定性产生的歧义。鉴于此,让单字切分、单字识别、自然语言模型三个子专家模块一起对手写体文本做出识别判断,即统一识别框架下的手写体文本识别,是保证手写体文本高认识率最优选择。虽然统一识别框架保证手写体文本识别器的高认识率,但随着子专家模块的增加,手写体文本识别器所需要的内存空间显著增大。鉴于移动计算过程中完成信息输入的移动智能终端内存相对较小、实时响应性高的特点,要求运行其上的手写体文本识别器占内存相对较小。手写体文本识别器的高认识率与小型化两个特征的互斥性,使现有研究和应用基本都没能够使用全部专家模块,即提高识别率是加专家模块,小型化时则压缩专家模块,导致手写体文本输入无法在移动智能终端上得到应用。
发明内容
为解决上述背景技术中存在的问题,本发明提供了一种在统一识别框架下手写体文本识别器的自然语言模型小型化的方法,以同时兼顾高识别率与小型化两个特性。
一种在统一识别框架下手写体文本识别器的自然语言模型小型化的方法,具体包括以下步骤:
通过存储词汇元组出现概率的传统模式向直接拟合一个泛化了的概率生成函数转变,具体过程如下:采用基于一元、二元和三元线性内插(Interpolation)平滑的自然语言模型,如式(7)所示,
P1(ωi|ωi-2ωi-1)=λ1P(ωi|ωi-2ωi-1)+λ2P(ωi|ωi-1)+λ3P(ωi) 式(7)
式中,P(ωi|ωi-2ωi-1),P(ωi|ωi-1)和P(ωi)分别为三元、二元和一元模型,其中λ1,λ2和λ3为统合参数,把从语料库中学习到的以上三个元组模型的概率存储在字典中,占内存大,故采用一个拟合函数,直接根据输入的单字ωi,ωi-1和ωi-2的编码,由拟合函数生成元组对应的概率;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于黄淮学院,未经黄淮学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911259369.3/2.html,转载请声明来源钻瓜专利网。