[发明专利]一种基于bert模型与ngram模型的语句修正方法及装置在审
申请号: | 202111386417.2 | 申请日: | 2021-11-22 |
公开(公告)号: | CN114282523A | 公开(公告)日: | 2022-04-05 |
发明(设计)人: | 汪玉珠;刘学谦;田贺锁 | 申请(专利权)人: | 北京方寸无忧科技发展有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/232 |
代理公司: | 北京中政联科专利代理事务所(普通合伙) 11489 | 代理人: | 郑久兴 |
地址: | 100080 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 bert 模型 ngram 语句 修正 方法 装置 | ||
本申请提供了一种基于bert模型与ngram模型的语句修正方法及装置,属于数据处理技术领域。所述方法包括确定所述语句中用于替代错误字词的多个候选目标词,并构成多个候选语句;对于每个候选语句,基于预设的bert模型计算该语句的第一困惑度,基于预设的ngram模型计算该语句的第二困惑度;给定所述第一困惑度的第一加权系数,给定所述第二困惑度的第二加权系数;对所述第一困惑度及所述第二困惑度通过加权的方式确定每个候选语句的总困惑度;基于所述总困惑度确定最终语句。本申请bert模型与ngram模型形成互补,提高了语句修正的准确率。
技术领域
本申请属于数据处理技术领域,特别涉及一种基于bert模型与ngram模型的语句修正方法及装置。
背景技术
困惑度(perplexity,ppl)是用来评价语言模型好坏的指标,语言模型是衡量句子好坏的模型,本质上是计算句子的概率:
对于句子s(词语w的序列):s=w1,w2,...,wn,
它的概率为:P(s)=P(w1,w2,...,wn)=p(w1)p(w2|w1)...p(wn|w1,w2,...,wn-1)
ppl的计算公式为,
由公式可知,句子概率越大,语言模型越好,迷惑度越小。这种计算方式存在两个非常大的问题:1、参数空间过大,条件概率P(wn|w1w2...wn-1)的可能性太多,无法估算;2、数据稀疏严重,对于非常多词对的组合,在语料库中都没有出现,依据最大似然估计得到的概率将会是0。
现有技术一般是通过bert模型或者ngram模型来设计不同的句子概率计算方式,以在一定程度上缓解ppl计算公式的缺陷。
bert是一种掩码语言模型(Masked Language Model,MLM),用来预测MASK位置的词语概率,以被MASK处理后的整句话的上下文为条件,计算所有被mask位置的词语的概率之和,比较适合用来计算ppl,且Bert泛化能力比较强。一般的方法中直接将模型输出的词的得分进行加和平均即为ppl困惑度。单独使用bert,在MLM预训练任务中,最小的掩码单位是字,这种掩码方法存在两个个问题:一是,当一个整词的部分字被掩码时,仅依靠未被掩码的部分可较为容易地预测出掩码位置对应的原字,存在一定的信息泄露;二是,由于理解文本语义最小的单位是词,bert的这种掩码方式对连续空缺文本的还原能力并不突出,而ngram模型可以很好地弥补。另外由于bert自身的特点并不适合增量训练。
Ngram模型是一种统计模型,可以增量训练。通常使用ngram计算ppl区别在于平滑方法的选择,比较流行的是如下的插值法:
P(wi|wi-2wi-1)=λ3p(wi|wi-2wi-1)+λ2p(wi|wi-1)+λ1p(wi)+λ0p
其中λi是需要确定的参数,p=1/R(R为语料中出现的词条数),
p(wi|wi-2wi-1)、p(wi|wi-1)、p(wi)分别为第i个词的3-gram,2-gram,1-gram的概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京方寸无忧科技发展有限公司,未经北京方寸无忧科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111386417.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种双油路喷嘴结构及其喷嘴系统
- 下一篇:一种AGV任务分配方法及存储介质