[发明专利]一种基于深度学习的平滑语音检测方法、装置及智能设备有效
申请号: | 202010619610.5 | 申请日: | 2020-07-01 |
公开(公告)号: | CN111916059B | 公开(公告)日: | 2022-12-27 |
发明(设计)人: | 黄远坤;李斌;黄继武 | 申请(专利权)人: | 深圳大学 |
主分类号: | G10L15/04 | 分类号: | G10L15/04;G10L15/06;G10L15/02;G10L25/27;G06N3/04;G06N3/08;G06K9/62 |
代理公司: | 深圳市君胜知识产权代理事务所(普通合伙) 44268 | 代理人: | 朱阳波 |
地址: | 518060 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 平滑 语音 检测 方法 装置 智能 设备 | ||
1.一种基于深度学习的平滑语音检测方法,其特征在于,所述方法包括:
对接收到的语音信号解压缩,保持原有的采样率,并对所述语音信号进行离散余弦变换,得到语音信号的离散余弦变换系数;设置基于一维卷积的平滑语音检测网络,所述平滑语音检测网络包括一维卷积层、归一化层、池化层以及全连接层;
将得到的语音信号的离散余弦变换系数、输入平滑语音检测网络进行训练,得到具有识别平滑语音能力的网络模型;
使用训练好的具有识别平滑语音能力的网络模型,对待测的语音进行平滑检测,输出分类结果;
所述对接收到的语音信号解压缩,保持原有的采样率,并对所述语音信号进行离散余弦变换,得到语音信号的离散余弦变换系数的步骤包括:
对接收到的语音信号进行解压缩,以原有的采样率以及位深将语音信号解压为单通道波形信号;
对波形信号进行离散余弦变换,得到语音信号的离散余弦变换系数:
,
其中,, n表示语音时域信号中的样本点,k表示离散余弦变换系数的样本点。
2.根据权利要求1所述的基于深度学习的平滑语音检测方法,其特征在于,所述设置基于一维卷积的平滑语音检测网络,所述平滑语音检测网络包括一维卷积层、归一化层、池化层以及全连接层的步骤包括:
设置能捕捉一维平滑信号差异的网络结构;采用5层卷积核为1x3的一维卷积层加2层全连接层的形式、进行特征提取分类;
在每层卷积层配备一个批量归一化层;
在第一、第二和第四个批量归一化层后面,使用采样核为1x3,步长为2的最大池化层来进行采样;
在第五个批量归一化层后面,使用全局平均池化层来进行降维;
全局平均池化层后面接两个节点数分别为512和2的全连接层进行分类,其中第一个全连接层后接一个批量归一化层;
除最后一层全连接层的输出使用softmax激活函数,其余各层的激活函数均为线性整流函数。
3.根据权利要求1所述的基于深度学习的平滑语音检测方法,其特征在于,所述将得到的语音信号的离散余弦变换系数、输入平滑语音检测网络进行训练,得到具有识别平滑语音能力的网络模型的步骤包括:
将语音信号的离散余弦变换系数输入到设置的所述平滑语音检测网络中,以监督学习的方式,通过基于梯度下降的反向传播算法来更新网络权值。
4.根据权利要求1所述的基于深度学习的平滑语音检测方法,其特征在于,所述使用训练好的具有识别平滑语音能力的网络模型,对待测的语音进行平滑检测,输出分类结果的步骤包括:
提取待测语音的离散余弦变换系数,将系数输入训练好的平滑语音检测网络中;
若所述具有识别平滑语音能力的网络模型输出[0,1],则判定语音信号为平滑语音;
若所述具有识别平滑语音能力的网络模型输出[1,0],则判定语音信号为原始语音。
5.根据权利要求1所述的基于深度学习的平滑语音检测方法,其特征在于,所述使用训练好的具有识别平滑语音能力的网络模型,对待测的语音进行平滑检测,输出分类结果的步骤包括:
将待测语音片段解压缩成对应的语音波形,对解压后的语音波形进行离散余弦变换得到离散余弦变换系数,然后将语音信号的离散余弦变换系数输入训练好的平滑语音检测网络进行测试检测,平滑语音检测网络分别输出原始语音和平滑语音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010619610.5/1.html,转载请声明来源钻瓜专利网。