[发明专利]一种音频处理的方法、装置、可读存储介质和电子设备在审
申请号: | 202110287746.5 | 申请日: | 2021-03-17 |
公开(公告)号: | CN113113047A | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 陈昌儒;张伟宇;徐培来;杨惠 | 申请(专利权)人: | 北京大米科技有限公司 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L25/27;G10L25/30;G10L25/90;G10L21/013 |
代理公司: | 北京睿派知识产权代理事务所(普通合伙) 11597 | 代理人: | 刘锋;杨春晓 |
地址: | 100142 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音频 处理 方法 装置 可读 存储 介质 电子设备 | ||
本发明实施例公开了一种音频处理的方法、装置、可读存储介质和电子设备。本发明实施例通过获取第一音频,确定所述第一音频的第一情感类别;当所述第一情感类别与所述第一音频对应的第二情感类别不同时,根据所述第二情感类别修改所述第一音频的音调,生成第二音频。通过上述方法,当第一音频中的音调影响交流效果时,通过与第一情感类别不同的第二情感类别修改第一音频中的音调,得到需要的音调,即有效的对人物的音调进行控制,提高了交流的效果。
技术领域
本发明涉及音频处理领域,具体涉及一种音频处理的方法、装置、可读存储介质和电子设备。
背景技术
随着互联网应用的发展,在线教学和网络直播改变了传统的教学方式以及人们的生活方式,在人们的日常生活使用越来越广泛,以在线教学为例,在线教学平台同时会有大量的学生用户,教师在教学过程中如果受到个人情绪或身体状态的影响,讲话时的音调一成不变,平淡无奇或者异常严厉,都会影响教师的亲和力,进而影响学生的学生效率和学习兴趣,造成用户的流失。
因此,如何通过技术手段对人物的音调进行控制,提高交流的效果,是目前需要解决的问题。
发明内容
有鉴于此,本发明实施例提供了一种音频处理的方法、装置、可读存储介质和电子设备,有效的对人物的音调进行控制,提高了交流的效果。
第一方面,本发明实施例提供了一种音频处理的方法,该方法包括:获取第一音频;确定所述第一音频的第一情感类别;响应于所述第一情感类别与所述第一音频对应的第二情感类别不同,根据所述第二情感类别修改所述第一音频的音调,生成第二音频。
优选地,所述第一音频对应的第二情感类别根据情感预测模型预先确定的。
优选地,所述第一音频对应的第二情感类别为预先设置的。
优选地,所述根据情感预测模型预先确定的所述第一音频对应的第二情感类别,具体包括:
将所述第一音频的起始时刻之前设定时长的历史音频输入到自动语音识别模型,输出所述历史音频对应的文本信息,其中,所述历史音频用于预测所述第一音频的第二情感类别;
将所述文本信息输入到语义分析模型,输出所述文本信息对应候选情感类别;
将所述候选情感类别与所述历史音频之前N段音频对应的历史情感类别输入到情感预测模型,输出所述第一音频对应的第二情感类别,其中,N为大于或等于1的正整数。
优选地,所述情感类别包括愉快、悲伤、平淡、厌烦、惊讶以及生气中的至少一项。
优选地,所述确定所述第一音频的第一情感类别,具体包括:
根据高斯混合模型GMM或者深度神经网络模型,确定所述第一音频的第一情感类别。
优选地,所述根据所述第二情感类别修改所述第一音频的音调,生成第二音频,具体包括:
通过预先训练的情感转换模型,将所述第一音频的音调从所述第一情感类别修改为所述第二情感类别,生成第二音频,其中,所述情感转换模型为高斯混合模型GMM或者深度神经网络模型,所述第二音频的音调为第二情感类别。
优选地,所述通过预先训练的情感转换模型,将所述第一音频的音调从所述第一情感类别修改为所述第二情感类别,生成第二音频,具体包括:
确定所述第一音频的至少一个第一情感特征;
根据所述预先训练的情感转换模型将所述至少一个第一情感特征转换为至少一个第二情感特征;
将所述至少一个第二情感特征按照设定方法进行合成,生成第二音频。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大米科技有限公司,未经北京大米科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110287746.5/2.html,转载请声明来源钻瓜专利网。