[发明专利]音量调节的方法、装置、电子设备和存储介质在审

申请号：	202010886561.1	申请日：	2020-08-28
公开（公告）号：	CN112037771A	公开（公告）日：	2020-12-04
发明（设计）人：	单彦会;荣玉军;张俊杰;蔡旭浦;罗红	申请（专利权）人：	中移（杭州）信息技术有限公司;中国移动通信集团有限公司
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/02;G10L21/003;G10L21/0208
代理公司：	上海晨皓知识产权代理事务所(普通合伙) 31260	代理人：	成丽杰
地址：	310011 浙江省杭州***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	音量调节方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例涉及语音识别领域，公开了一种音量调节的方法、装置、电子设备和存储介质。上述音量调节的方法包括：获取用于训练语音识别模型的训练集中的各音频样本；其中，所述语音识别模型用于语音识别；确定所述训练集中的各音频样本的音量值；根据所述各音频样本的音量值，确定所述训练集的音量基准值；根据所述音量基准值，对所述各音频样本的音量值进行调节；其中，调节后的所述各音频样本的音量值与所述音量基准值的差值在预设的差值范围内。本发明实施例提供的音量调节的方法可以基于整个训练集对每条音频数据进行音量调节，合适地调整训练集中音频样本的音量值，从而提升语音识别模型的识别效果。

技术领域

本发明实施例涉及语音识别领域，特别涉及一种音量调节的方法、装置、电子设备和存储介质。

背景技术

随着计算机技术的发展，语音识别技术被应用于越来越多的领域，如智能家居、工业控制、终端设备的语音交互系统等。利用语音识别技术可以使信息的处理和获取更加便捷，从而提高工作效率。语音识别模型是在大量音频数据的基础上，通过深度神经网络进行学习和推理，并进行迭代训练而获得的。用于训练的音频数据的质量好坏，会在很大程度上对语音识别模型的效果造成影响。

发明人发现现有技术中至少存在如下问题：语音识别模型识别效果严重依赖于训练的音频数据质量，现有技术首先对训练样本进行高通滤波处理，这会过滤掉音频数据中部分有效数据，对经高通滤波处理后的训练样本进行自动增益控制处理，然而对于音频本身声音很小或者很大的情况，自动增益效果不佳，不能很好的调整音量信息，最终导致语音识别模型的识别效果不佳。

发明内容

本发明实施方式的目的在于提供一种音量调节的方法、装置、电子设备和存储介质，可以基于整个训练集对每条音频数据进行音量调节，合适地调整训练集中音频样本的音量值，从而提升语音识别模型的识别效果。

为解决上述技术问题，本发明的实施方式提供了一种音量调节的方法，包括以下步骤：获取用于训练语音识别模型的训练集中的各音频样本；其中，所述语音识别模型用于语音识别；确定所述训练集中的各音频样本的音量值；根据所述各音频样本的音量值，确定所述训练集的音量基准值；根据所述音量基准值，对所述各音频样本的音量值进行调节；其中，调节后的所述各音频样本的音量值与所述音量基准值的差值在预设的差值范围内。

本发明的实施方式还提供了一种音量调节的装置，包括：获取模块，用于获取用于训练语音识别模型的训练集中的各音频样本；其中，所述语音识别模型用于语音识别；计算模块，用于确定所述训练集中的各音频样本的音量值；统计模块，用于根据所述各音频样本的音量值，确定所述训练集的音量基准值；调节模块，用于根据所述音量基准值，对所述各音频样本的音量值进行调节；其中，调节后的所述各音频样本的音量值与所述音量基准值的差值在预设的差值范围内。

本发明的实施方式还提供了一种电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述音量调节的方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述音量调节的实现方法。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中移（杭州）信息技术有限公司;中国移动通信集团有限公司，未经中移（杭州）信息技术有限公司;中国移动通信集团有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010886561.1/2.html，转载请声明来源钻瓜专利网。

上一篇：基于节点停电风险不变的节点备用容量快速评估方法
下一篇：一种基于广义S变换和WOA-SVM的电机轴承故障诊断方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]音量调节的方法、装置、电子设备和存储介质在审

专利文献下载