[发明专利]一种在统一识别框架下手写体文本识别器的自然语言模型小型化的方法有效

申请号：	201911259369.3	申请日：	2019-12-10
公开（公告）号：	CN110990588B	公开（公告）日：	2023-04-11
发明（设计）人：	高金锋;姚汝贤;马贺红;张瑜;张俊明;赖晗	申请（专利权）人：	黄淮学院
主分类号：	G06F16/36	分类号：	G06F16/36;G06F17/18
代理公司：	郑州浩翔专利代理事务所(特殊普通合伙) 41149	代理人：	边延松
地址：	463000 河***	国省代码：	河南;41
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种统一识别框架手写体文本自然语言模型小型化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种在统一识别框架下手写体文本识别器的自然语言模型小型化的方法，其特征在于，包括以下步骤：

通过存储词汇元组出现概率的传统模式向直接拟合一个泛化了的概率生成函数转变，具体过程如下：采用基于一元、二元和三元线性内插(Interpolation)平滑的自然语言模型，如式(7)所示，

P1(ωi|ωi-2ωi-1)＝λ1P(ωi|ωi-2ωi-1)+λ2P(ωi|ωi-1)+λ3P(ωi) 式(7)

式中，P(ωi|ωi-2ωi-1)，P(ωi|ωi-1)和P(ωi)分别为三元、二元和一元模型，其中λ1，λ2和λ3为统合参数，把从语料库中学习到的以上三个元组模型的概率存储在字典中，占内存大，故采用一个拟合函数，直接根据输入的单字ωi，ωi-1和ωi-2的编码，由拟合函数生成元组对应的概率；

鉴于有三个变量，因此可以采用三元高阶多项式函数，如式(8)所示，

式(8)可以同时表示以上三个概率模型，即当ωi-2和ωi-1都为零时，可以得到一元组的概率，而当ωi-2为零时，还可以得到二元组概率；

为防止参数学习过程中的过度拟合，把从语料库中得到的出现频率较小的不稳定元组进行预处理，如第i类一元组在语料库中出现的次数记为Cⁱ₁，其中0＜i＜n₁，类似的第j类二元和第k类三元组出现次数分别记为C^j₂和C^k₃，其中0＜j＜n₂，0＜k＜n₃，其中n₁，n₂和n₃分别标记一元组、二元组和三元组的类数，n1＜＜n2＜＜n3；一元组、二元组和三元组在语料库中出现的总数分别记为N₁，N₂和N₃，那么，第i类一元组，第j类二元组和第k类三元组出现的概率可用式(9)来表示，

把θ1小于某一阈值的一元组全部赋值为某一极小常数；同理把θ2和θ3小于某一阈值的二元组和三元组也分别赋给不同的极小常数；然后，在预处理后的元组集合上通过用随机梯度下降算法优化概率生成函数式(8)的参数，通过该概率生成函数，便实现了自然语言模型零空间复杂度。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于黄淮学院，未经黄淮学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911259369.3/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于无级变速机构实现惯质系数连续可调的液力式惯容器
下一篇：一种复合型超宽频引向器及高低频嵌套组阵

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种在统一识别框架下手写体文本识别器的自然语言模型小型化的方法有效

专利文献下载