[发明专利]语音中检测音乐的方法、语音通信优化方法及对应的装置在审
申请号: | 202010120889.2 | 申请日: | 2020-02-26 |
公开(公告)号: | CN112750469A | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 夏咸军 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L25/78 | 分类号: | G10L25/78;G10L25/87;G10L25/18;G10L25/27;G10L15/04;G10L15/06;G10L19/24 |
代理公司: | 北京市立方律师事务所 11330 | 代理人: | 张筱宁 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 检测 音乐 方法 通信 优化 对应 装置 | ||
本申请提供了一种语音中检测音乐的方法、语音通信优化方法及对应的装置,方法包括:获取语音片段,并对语音片段进行分帧处理得到至少两帧语音信号;获取每一帧语音信号的特征向量,以及该帧语音信号之前的第一帧数的历史语音信号中各帧历史语音信号的特征向量;将每一帧语音信号的特征向量和对应的各帧历史语音信号的特征向量输入训练好的预设GRU模型,并基于训练好的预设GRU模型的输出结果确定该帧语音信号是否包含音乐。由于GRU模型的输入中除了包含待检测语音信号的特征向量外,还包含了多帧历史语音信号的特征向量,使得GRU模型在计算过程中综合了历史语音信号的特征,提高了单帧语音信号的检测准确率,进而提高了语音片段检测结果的连续性。
技术领域
本申请涉及计算机技术领域,具体而言,本申请涉及一种语音中检测音乐的方法、语音通信优化方法及对应的装置。
背景技术
在语音通信中,往往需要对语音中包含的语音信息的类别进行鉴别,以便于采取相应的数据处理方式,进而获得更好的语音通信效果。具体来说,人们往往希望在语音通信过程中保留或增强说话、音乐等有用信号,而抑制或消除噪声、混响等无用信号,那么就需要对这些类别的信号进行检测。
目前,一般利用神经网络模型(Neural Network,NN)对语音中的音乐进行检测,检测过程一般是将语音片段中单帧语音信号的频域离散频谱对应的向量作为神经网络模型的输入,输出该帧语音信号包含音乐的概率,进而得出该语音片段中所有帧语音信号的音乐检测结果。但是该方式对每帧语音信号的检测准确率不高,进而导致语音片段中的音乐检测结果不连续。
发明内容
本申请的目的旨在至少能解决上述的技术缺陷之一,本申请实施例所提供的技术方案如下:
第一方面,本申请实施例提供了一种语音中检测音乐的方法,包括:
获取语音片段,并对语音片段进行分帧处理得到至少两帧语音信号;
获取每一帧语音信号的特征向量,以及该帧语音信号之前的第一帧数的历史语音信号中各帧历史语音信号的特征向量;
将每一帧语音信号的特征向量和对应的各帧历史语音信号的特征向量输入训练好的预设门循环卷积单元GRU模型,并基于训练好的预设GRU模型的输出结果确定该帧语音信号是否包含音乐;
其中,训练好的预设GRU模型通过语音信号样本训练得到,语音信号样本标注有用于指示该语音信号样本是否包含音乐的标签。
在本申请的一种可选实施例中,获取每一帧语音信号的特征向量,包括:
提取每一帧语音信号的对数梅尔频谱特征;
对每一帧语音信号的对数梅尔频谱特征进行归一化处理,得到该帧语音信号的特征向量。
在本申请的一种可选实施例中,方法还包括:
获取预设数量的语音信号样本;
基于各语音信号样本对预设GRU模型进行训练,得到训练好的预设GRU模型。
在本申请的一种可选实施例中,训练好的预设GRU模型的输出结果为每一帧语音信号包含音乐的第一概率;
基于训练好的预设GRU模型的输出结果确定每一帧语音信号是否包含音乐,包括:
基于每一帧语音信号包含音乐的第一概率和预设门限值,确定该帧语音信号是否包含音乐。
在本申请的一种可选实施例中,方法还包括:
获取第二帧数的历史语音信号中各帧历史语音信号包含音乐的第二概率;
基于每一帧语音信号包含音乐的第一概率和预设门限值,确定该帧语音信号是否包含音乐,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010120889.2/2.html,转载请声明来源钻瓜专利网。