[发明专利]一种基于bert模型与ngram模型的语句修正方法及装置在审

专利信息
申请号: 202111386417.2 申请日: 2021-11-22
公开(公告)号: CN114282523A 公开(公告)日: 2022-04-05
发明(设计)人: 汪玉珠;刘学谦;田贺锁 申请(专利权)人: 北京方寸无忧科技发展有限公司
主分类号: G06F40/216 分类号: G06F40/216;G06F40/232
代理公司: 北京中政联科专利代理事务所(普通合伙) 11489 代理人: 郑久兴
地址: 100080 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 bert 模型 ngram 语句 修正 方法 装置
【说明书】:

本申请提供了一种基于bert模型与ngram模型的语句修正方法及装置,属于数据处理技术领域。所述方法包括确定所述语句中用于替代错误字词的多个候选目标词,并构成多个候选语句;对于每个候选语句,基于预设的bert模型计算该语句的第一困惑度,基于预设的ngram模型计算该语句的第二困惑度;给定所述第一困惑度的第一加权系数,给定所述第二困惑度的第二加权系数;对所述第一困惑度及所述第二困惑度通过加权的方式确定每个候选语句的总困惑度;基于所述总困惑度确定最终语句。本申请bert模型与ngram模型形成互补,提高了语句修正的准确率。

技术领域

本申请属于数据处理技术领域,特别涉及一种基于bert模型与ngram模型的语句修正方法及装置。

背景技术

困惑度(perplexity,ppl)是用来评价语言模型好坏的指标,语言模型是衡量句子好坏的模型,本质上是计算句子的概率:

对于句子s(词语w的序列):s=w1,w2,...,wn

它的概率为:P(s)=P(w1,w2,...,wn)=p(w1)p(w2|w1)...p(wn|w1,w2,...,wn-1)

ppl的计算公式为,

由公式可知,句子概率越大,语言模型越好,迷惑度越小。这种计算方式存在两个非常大的问题:1、参数空间过大,条件概率P(wn|w1w2...wn-1)的可能性太多,无法估算;2、数据稀疏严重,对于非常多词对的组合,在语料库中都没有出现,依据最大似然估计得到的概率将会是0。

现有技术一般是通过bert模型或者ngram模型来设计不同的句子概率计算方式,以在一定程度上缓解ppl计算公式的缺陷。

bert是一种掩码语言模型(Masked Language Model,MLM),用来预测MASK位置的词语概率,以被MASK处理后的整句话的上下文为条件,计算所有被mask位置的词语的概率之和,比较适合用来计算ppl,且Bert泛化能力比较强。一般的方法中直接将模型输出的词的得分进行加和平均即为ppl困惑度。单独使用bert,在MLM预训练任务中,最小的掩码单位是字,这种掩码方法存在两个个问题:一是,当一个整词的部分字被掩码时,仅依靠未被掩码的部分可较为容易地预测出掩码位置对应的原字,存在一定的信息泄露;二是,由于理解文本语义最小的单位是词,bert的这种掩码方式对连续空缺文本的还原能力并不突出,而ngram模型可以很好地弥补。另外由于bert自身的特点并不适合增量训练。

Ngram模型是一种统计模型,可以增量训练。通常使用ngram计算ppl区别在于平滑方法的选择,比较流行的是如下的插值法:

P(wi|wi-2wi-1)=λ3p(wi|wi-2wi-1)+λ2p(wi|wi-1)+λ1p(wi)+λ0p

其中λi是需要确定的参数,p=1/R(R为语料中出现的词条数),

p(wi|wi-2wi-1)、p(wi|wi-1)、p(wi)分别为第i个词的3-gram,2-gram,1-gram的概率。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京方寸无忧科技发展有限公司,未经北京方寸无忧科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111386417.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top