[发明专利]辅助解码方法、装置、电子设备及可读存储介质有效
申请号: | 201911418820.1 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111222331B | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 吴帅;李健;武卫东 | 申请(专利权)人: | 北京捷通华声科技股份有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/126;G06F16/31 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100193 北京市海淀区东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 辅助 解码 方法 装置 电子设备 可读 存储 介质 | ||
1.一种基于反向NGram的辅助解码方法,其特征在于,所述方法包括:
获取待解码语料,通过解码器对所述待解码语料进行解码,得到多条候选文本以及每条候选文本的初始分数;
将所述多条候选文本分别输入原始语言模型,得到每条候选文本的原始分数;
将所述多条候选文本分别进行逆序处理,得到与所述多条候选文本相对应的多条逆序文本;
将所述多条逆序文本分别输入反向NGram模型,得到每条候选文本的反向分数;
根据所述每条候选文本的原始分数和反向分数,对每条文本的所述初始分数进行更新,得到每条候选文本的更新分数;
根据每条候选文本的更新分数,将更新分数最高的候选文本确定为所述待解码语料的解码文本;
其中,所述根据所述每条候选文本的原始分数和反向分数,对每条文本的所述初始分数进行更新,得到每条候选文本的更新分数的步骤中,采用的更新公式为:
S′=S+λ(Gnew-Gold)
其中,S′为更新分数,S为初始分数,λ为反向更新权重,取值在0-1之间,Gnew为反向分数,Gold为原始分数。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取多条逆序文本样本,对待训练的反向NGram模型进行多轮训练,直至所述待训练的反向NGram模型输出的反向分数满足预设条件时,结束训练,得到所述反向NGram模型。
3.根据权利要求2所述的方法,其特征在于,获取多条逆序文本样本,包括:
获取多条语料样本,对所述语料样本进行清洗,根据解码器中的词表,对多条清洗后的所述语料样本进行分词,得到多条分词后的文本样本;
将每条所述分词后的文本样本,以词为单位,进行逆序排列,得到多条逆序后的文本样本;
在每条所述逆序后的文本样本的两端添加句首符和句尾符,得到多条所述逆序文本样本。
4.根据权利要求1所述的方法,其特征在于,所述候选文本为分词后的文本,且每条所述候选文本均包含句首符和句尾符,将所述多条候选文本分别输入原始语言模型,得到每条候选文本的原始分数,包括:
将所述多条候选文本分别输入原始语言模型,依次计算每条候选文本中每个词以及所述句尾符的概率,并根据每条候选文本中每个词以及句尾符的概率计算出每条候选文本的原始分数;
将所述多条逆序文本分别输入反向NGram模型,得到每条候选文本的反向分数,包括:
将所述多条候选文本分别输入反向NGram模型,依次计算每条逆序文本中每个词以及所述句首符的概率,并根据每条候选文本中每个词以及所述句首符的概率计算出每条候选文本的反向分数。
5.根据权利要求4所述的方法,其特征在于,将所述多条候选文本分别进行逆序处理,得到与所述多条候选文本相对应的多条逆序文本,包括:
将每条所述分词后的候选文本,以词或句首符或句尾符为单位,进行逆序排列,得到多条逆序后的候选文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷通华声科技股份有限公司,未经北京捷通华声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911418820.1/1.html,转载请声明来源钻瓜专利网。