[发明专利]语音通信优化方法、装置、电子设备及可读存储介质有效
申请号: | 202010121470.9 | 申请日: | 2020-02-26 |
公开(公告)号: | CN112750461B | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 夏咸军;王燕南 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L25/51 | 分类号: | G10L25/51;G10L25/30;G10L25/24 |
代理公司: | 北京市立方律师事务所 11330 | 代理人: | 张筱宁 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 通信 优化 方法 装置 电子设备 可读 存储 介质 | ||
本申请提供了一种语音通信优化方法、装置、电子设备及可读存储介质,包括:每间隔预设时长获取目标语音片段,并对每一目标语音片段进分帧得到多帧语音信号;获取每一帧语音信号以及历史语音信号的特征向量;将每一帧语音信号以及历史语音信号的特征向量输入预设GRU模型,并基于输出结果确定该帧语音信号是否包含混响;若该目标语音片段中包含混响的语音信号的帧数占总帧数的比例不小于第一预设门限值,则在获取到下一目标语音片段之前对语音进行混响消除。由于GRU模型的输入中除了包含待检测语音信号的特征向量外,还包含了多帧历史语音信号的特征向量,使得GRU模型在计算过程中综合了历史语音信号的特征,提高了单帧语音信号的检测准确率。
技术领域
本申请涉及计算机技术领域,具体而言,本申请涉及一种语音通信优化方法、装置、电子设备及可读存储介质。
背景技术
在语音通信中,往往需要对语音中包含的语音信息的类别进行鉴别,以便于采取相应的数据处理方式,进而获得更好的语音通信效果。具体来说,人们往往希望在语音通信过程中保留或增强说话、音乐等有用信号,而抑制或消除噪声、混响等无用信号,那么首先就需要对这些类别的信号进行检测。
目前,一般利用神经网络模型(Neural Network,NN)对语音中的混响进行检测,检测过程一般是将语音片段中单帧语音信号的频域离散频谱对应的向量作为神经网络模型的输入,输出该帧语音信号包含混响的概率,进而得出该语音片段中所有帧语音信号的混响检测结果,但是该方式对每帧语音信号的检测准确率不高。
发明内容
本申请的目的旨在至少能解决上述的技术缺陷之一,本申请实施例所提供的技术方案如下:
第一方面,本申请实施例提供了一种语音通信优化方法,包括:
每间隔预设时长从语音通信中的近端设备获取目标语音片段,并对每一目标语音片段进行分帧处理得到至少两帧语音信号;
获取每一帧语音信号的特征向量,以及该帧语音信号之前的第一帧数的历史语音信号中各帧历史语音信号的特征向量;
将每一帧语音信号的特征向量和对应的各帧历史语音信号的特征向量输入训练好的预设门循环卷积单元GRU模型,并基于训练好的预设GRU模型的输出结果确定该帧语音信号是否包含混响,其中,训练好的预设GRU模型通过语音信号样本训练得到,语音信号样本标注有用于指示该语音信号样本是否包含混响的标签;
对于每一目标语音片段,若该目标语音片段中包含混响的语音信号的帧数占该目标语音片段对应的语音信号的总帧数的比例不小于第一预设门限值,则在获取到下一目标语音片段之前对近端设备发送的语音进行混响消除处理后发送至语音通信中的对端设备。
在本申请的一种可选实施例中,方法还包括:
获取预设数量的语音信号样本;
基于各语音信号样本对预设GRU模型进行训练,得到训练好的预设GRU模型。
在本申请的一种可选实施例中,训练好的预设GRU模型的输出结果为每一帧语音信号包含混响的第一概率;
基于训练好的预设GRU模型的输出结果确定每一帧语音信号是否包含混响,包括:
基于每一帧语音信号包含混响的第一概率和第二预设门限值,确定该帧语音信号是否包含混响。
在本申请的一种可选实施例中,方法还包括:
获取第二帧数的历史语音信号中各帧历史语音信号包含混响的第二概率;
基于每一帧语音信号包含混响的第一概率和第二预设门限值,确定该帧语音信号是否包含混响,包括:
获取每一帧语音信号对应的第一概率与对应的各帧历史语音信号对应的第二概率的平均值,得到该帧语音信号包含混响的平均概率;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010121470.9/2.html,转载请声明来源钻瓜专利网。