[发明专利]语音切分模型的训练方法、装置、电子设备及存储介质有效
申请号: | 202110735369.7 | 申请日: | 2021-06-30 |
公开(公告)号: | CN113593528B | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 张睿卿;何中军;李芝;吴华 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G10L15/04 | 分类号: | G10L15/04;G10L15/06;G10L15/26;G06F40/58 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张梦瑶 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 切分 模型 训练 方法 装置 电子设备 存储 介质 | ||
本申请公开了语音切分模型的训练方法、装置、电子设备及存储介质,涉及计算机技术领域,具体涉及语音技术、深度学习和自然语言处理等人工智能技术领域。具体实施方案为,获取样本语音,并获取待训练的语音切分模型;将样本语音划分为多个样本语音片段;根据语音翻译模型对多个样本语音片段进行翻译,以生成多个样本文本片段;根据多个样本文本片段和预设条件,生成多个样本语音片段的标签值;以及根据多个样本语音片段的标签值和多个样本语音片段对语音切分模型进行训练,以生成训练之后的语音切分模型。由此,能够提高语音切分模型的准确度,且可通过训练的语音切分模型为后续的同声传译提供有意义的语音片段,从而能够提高同声传译的准确率。
技术领域
本申请涉及计算机技术领域,具体涉及智能搜索、大数据和深度学习等人工智能技术领域,尤其涉及一种语音切分模型、装置和电子设备。
背景技术
随着同声传译技术越来越成熟,同声传译设备成为了国际会议、外交外事、会晤谈判、商务活动、新闻传媒等一些国际场合同步翻译不可缺少的设备。
同声传译是指在不打断讲话者讲话的情况下,不断的将内容通过不同的语言传递给听众的一种翻译方式。相关技术中,主流方法是每隔T时间(通常T=几百毫秒)对当前输入流式语音进行一次片段分类,并判断当前语音是否为一个字的边界(word boundary),如果是的话,就采用固定策略进行翻译。
发明内容
本申请提供了一种用于语音切分模型的训练方法、装置、电子设备及存储介质。
根据本申请的一方面,提供了一种语音切分模型的训练方法,包括:
获取样本语音,并获取待训练的语音切分模型;
将所述样本语音划分为多个样本语音片段;
根据语音翻译模型对所述多个样本语音片段进行翻译,以生成多个样本文本片段;
根据所述多个样本文本片段和预设条件,生成所述多个样本语音片段的标签值;以及
根据所述多个样本语音片段的标签值和所述多个样本语音片段对所述语音切分模型进行训练,以生成训练之后的所述语音切分模型。
根据本申请的另一方面,提供了一种语音切分模型的训练装置,包括:
获取模块,用于获取样本语音,并获取待训练的语音切分模型;
划分模块,用于将所述样本语音划分为多个样本语音片段;
第一生成模块,用于根据语音翻译模型对所述多个样本语音片段进行翻译,以生成多个样本文本片段;
第二生成模块,用于根据所述多个样本文本片段和预设条件,生成所述多个样本语音片段的标签值;以及
训练模块,用于根据所述多个样本语音片段的标签值和所述多个样本语音片段对所述语音切分模型进行训练,以生成训练之后的所述语音切分模型。
根据本申请的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述一方面实施例所述的语音切分模型的训练方法。
根据本申请另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其上存储有计算机程序,所述计算机指令用于使所述计算机执行上述一方面实施例所述的语音切分模型的训练方法。
根据本申请的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述一方面实施例所述的语音切分模型的训练方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110735369.7/2.html,转载请声明来源钻瓜专利网。