[发明专利]语音文本的校正方法和装置在审
申请号: | 202110578619.0 | 申请日: | 2021-05-26 |
公开(公告)号: | CN115410555A | 公开(公告)日: | 2022-11-29 |
发明(设计)人: | 罗基宏 | 申请(专利权)人: | 慧科讯业有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/04;G10L15/26;G06F40/289;G06F40/232 |
代理公司: | 北京市君合律师事务所 11517 | 代理人: | 王再芊;毕长生 |
地址: | 中国香港湾仔告士打道*** | 国省代码: | 香港;81 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 文本 校正 方法 装置 | ||
本发明涉及一种语音文本的校正方法和装置。语音文本的校正方法包括:获取语音文本;利用文本校正模型对语音文本进行校正。生成文本校正模型的方法包括:获取特定领域的新词和包括新词的新词文本;根据新词文本生成训练文本;利用训练文本和掩码语言模型对基于Transformer的语言模型进行训练,生成文本校正模型。本发明的文本校正模型是利用新词和新词文本进行无监督式学习而生成的,因此可以使文本校正模型快速且高效地适应特定领域中不断出现的新词,从而在使用一般的语音识别模型的情况下,仍然能够确保语音文本准确性。
技术领域
本发明涉及自然语言处理领域,尤其涉及一种语音文本的校正方法和装置。
背景技术
近年来,语音识别技术取得显著进步,并且开始应用于生产生活中的各个领域。语音识别技术通过将语音输入到语音信息识别模型而产生语音文本。为了提高语音识别的准确性,需要预先使用大量标注数据对语音识别模型进行训练。语音识别模型通常都是通用领域的,即不局限于某一特定的领域。然而在如今信息高速发展的社会中,在每个特定领域都有大量的新词汇产生。当通用的语音识别模型未曾使用这些新词汇进行训练时,语音识别模型对这些新词汇的识别错误几率会显著升高,从而产生存在识别错误的语音文本。如果不断采用新词反复训练语音识别模型,那么语音识别模型会变得过于臃肿,影响语音识别效率。另外,由于新词汇的产生频率较高,很难对语音识别模型进行实时训练。
因此,需要提供一种可以提高对特定领域的新词的识别准确性的解决方案。
发明内容
有鉴于此,本发明提出了一种生成文本校正模型的方法和装置,以及利用文本校正模型实现的语音文本的校正方法和装置,其能解决以上技术问题。
本发明的技术方案如下:
一种生成文本校正模型的方法,文本校正模型用于校正语音文本中的新词识别错误,所述方法包括:
获取特定领域的新词和包括新词的新词文本;
根据新词文本生成训练文本;
利用训练文本和掩码语言模型对基于Transformer的语言模型进行训练,生成文本校正模型,
其中,根据新词文本生成训练文本包括:
将新词文本切分成多个token;
将新词文本中的新词的token替换为掩码token。
根据优选的实施例,利用训练文本和掩码语言模型对基于Transformer的语言模型进行训练,生成文本校正模型的步骤包括:
利用基于Transformer的语言模型计算训练文本中每个掩码token的可能值的几率;
利用交叉熵作为反向传播算法的损失函数,更新基于Transformer的语言模型的参数。
根据优选的实施例,根据新词文本生成训练文本的步骤还包括,从新词文本中选取一定比例的非新词的token并将其替换成掩码token。
根据优选的实施例,所述损失函数为:
其中|W|表示掩码token的可能值;若k为真则yk值为1,否则yk值为0;pk表示基于Transformer的语言模型预测掩码token为k的机率。
一种语音文本的校正方法,包括:
获取语音文本;
利用根据以上描述的方法生成的文本校正模型对语音文本进行校正。
根据优选的实施例,所述方法还包括,对语音文本进行错误检测以获得可疑字段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于慧科讯业有限公司,未经慧科讯业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110578619.0/2.html,转载请声明来源钻瓜专利网。