[发明专利]一种基于bert模型与ngram模型的语句修正方法及装置在审

专利信息
申请号: 202111386417.2 申请日: 2021-11-22
公开(公告)号: CN114282523A 公开(公告)日: 2022-04-05
发明(设计)人: 汪玉珠;刘学谦;田贺锁 申请(专利权)人: 北京方寸无忧科技发展有限公司
主分类号: G06F40/216 分类号: G06F40/216;G06F40/232
代理公司: 北京中政联科专利代理事务所(普通合伙) 11489 代理人: 郑久兴
地址: 100080 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 bert 模型 ngram 语句 修正 方法 装置
【权利要求书】:

1.一种基于bert模型与ngram模型的语句修正方法,其特征在于,包括:

确定所述语句中用于替代错误字词的多个候选目标词,并构成多个候选语句;

对于每个候选语句,基于预设的bert模型计算该语句的第一困惑度,基于预设的ngram模型计算该语句的第二困惑度;

给定所述第一困惑度的第一加权系数,给定所述第二困惑度的第二加权系数;

对所述第一困惑度及所述第二困惑度通过加权的方式确定每个候选语句的总困惑度;

基于所述总困惑度确定最终语句。

2.如权利要求1所述的基于bert模型与ngram模型的语句修正方法,其特征在于,基于预设的bert模型计算该语句的第一困惑度包括:

确定所述候选语句中每个词的bert模型输出值;

以所述每个词的bert模型输出值的平均值作为所述候选语句的第一困惑度。

3.如权利要求1所述的基于bert模型与ngram模型的语句修正方法,其特征在于,基于预设的ngram模型计算该语句的第二困惑度包括:

其中,n为句子长度,wi为第i个词或字,p(wn|w1......wn-1)是指对于1-gram,其形式为p(wi),对于2-gram,其形式为p(wi|wi-1),对于3-gram,其形式为p(wi|wi-2wi-1),其中:

P(wi|wi-2wi-1)=λ3p(wi|wi-2wi-1)+λ2p(wi|wi-1)+λ1p(wi)+λ0p;

其中λi是需要确定的参数,p=1/R,R为语料中出现的词条数,如果在模型中并不存在对应的词的时候利用基于字的ngram模型,在使用回退法进行计算,即先用3-gram,如果不存在,则用2-gram,如果2-gram不存在,则用1-gram,其中1-gram使用的加值平滑法确定。

4.如权利要求1所述的基于bert模型与ngram模型的语句修正方法,其特征在于,给定所述第一加权系数及第二加权系数包括:

随机给定初始的第一加权系数及第二加权系数,其中,第一加权系数与所述第二加权系数之和为1;

对于所述bert模型对每个词的计算结果,将其归一化到区间[0,1]上;

对于ngram模型,将对句子最终的处理结果归一化到区间[0,1]上;

将上述处理结果应用到总困惑度计算公式中,采用梯度下降法求解最优的第一加权系数及第二加权系数。

5.一种基于bert模型与ngram模型的语句修正装置,其特征在于,包括:

候选语句确定模块,用于确定所述语句中用于替代错误字词的多个候选目标词,并构成多个候选语句;

子困惑度确定模块,用于对于每个候选语句,基于预设的bert模型计算该语句的第一困惑度,基于预设的ngram模型计算该语句的第二困惑度;

加权系数确定模块,用于给定所述第一困惑度的第一加权系数,给定所述第二困惑度的第二加权系数;

总困惑度确定模块,用于对所述第一困惑度及所述第二困惑度通过加权的方式确定每个候选语句的总困惑度;

最终语句确定模块,用于基于所述总困惑度确定最终语句。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京方寸无忧科技发展有限公司,未经北京方寸无忧科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111386417.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top