[发明专利]语音处理及模型训练方法、装置、设备和存储介质有效

申请号：	202110941820.0	申请日：	2021-08-17
公开（公告）号：	CN113838451B	公开（公告）日：	2022-09-23
发明（设计）人：	李若铭;白洁;潘政林	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G10L13/047	分类号：	G10L13/047;G10L13/04;G10L13/08;G10L13/033;G10L25/30;G10L19/00
代理公司：	北京鸿德海业知识产权代理有限公司 11412	代理人：	田宏宾
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音处理模型训练方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开提供了一种语音处理及模型训练方法、装置、设备和存储介质，涉及计算机技术领域，具体涉及语音合成、深度学习、自然语言处理等人工智能领域。语音处理方法包括：对文本进行语音处理，以获得所述文本对应的语音；对所述文本进行音效信息预测，以获得待添加音效的音效信息；基于所述音效信息，在所述语音中添加所述待添加音效。本公开可以提高有声读物的播放效果。

技术领域

本公开涉及计算机技术领域，具体涉及语音合成、深度学习、自然语言处理等人工智能领域，尤其涉及一种语音处理及模型训练方法、装置、设备和存储介质。

背景技术

有声读物是传统书的一种衍生形式，它是随着声磁技术的发展而开发出的一种以磁化物为载体并带有播放功能的书，最为常见的有声读物是有声小说。

相关技术中，有声小说只是将小说文本转换为对应的语音。

发明内容

本公开提供了一种语音处理及模型训练方法、装置、设备和存储介质。

根据本公开的一方面，提供了一种语音处理方法，包括：对文本进行语音处理，以获得所述文本对应的语音；对所述文本进行音效信息预测，以获得待添加音效的音效信息；基于所述音效信息，在所述语音中添加所述待添加音效。

根据本公开的另一方面，提供了一种音效信息预测模型的训练方法，所述音效信息预测模型用于对文本进行音效信息预测，以获得待添加音效的音效信息，所述音效信息用于在所述文本对应的语音中添加所述待添加音效，所述方法包括：对已有样本进行增强处理，以获得增强样本；采用所述增强样本，训练音效信息预测模型。

根据本公开的另一方面，提供了一种语音处理装置，包括：语音处理模块，用于对文本进行语音处理，以获得所述文本对应的语音；预测模块，用于对所述文本进行音效信息预测，以获得待添加音效的音效信息；添加模块，用于基于所述音效信息，在所述语音中添加所述待添加音效。

根据本公开的另一方面，提供了一种音效信息预测模型的训练装置，所述音效信息预测模型用于对文本进行音效信息预测，以获得待添加音效的音效信息，所述音效信息用于在所述文本对应的语音中添加所述待添加音效，所述装置包括：增强模块，用于对已有样本进行增强处理，以获得增强样本；训练模块，用于采用所述增强样本，训练音效信息预测模型。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述任一方面的任一项所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据上述任一方面的任一项所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据上述任一方面的任一项所述的方法。

根据本公开的技术方案，可以提高有声读物的播放效果。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的示意图；

图2是根据本公开第二实施例的示意图；

图3是根据本公开第三实施例的示意图；

图4是根据本公开第四实施例的示意图；

图5是根据本公开第五实施例的示意图；