[发明专利]一种基于三值量化压缩的VAD实现方法在审

专利信息
申请号: 202010704640.6 申请日: 2020-07-21
公开(公告)号: CN111798875A 公开(公告)日: 2020-10-20
发明(设计)人: 王蒙;姜黎;胡奎;付志勇 申请(专利权)人: 杭州芯声智能科技有限公司
主分类号: G10L25/84 分类号: G10L25/84;G10L19/032;G10L25/24;G10L25/30;G10L25/45;G10L25/78
代理公司: 广州凯东知识产权代理有限公司 44259 代理人: 梁灵周
地址: 310000 浙江省杭州市经济技术开*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 量化 压缩 vad 实现 方法
【权利要求书】:

1.一种基于三值量化压缩的VAD实现方法,其特征在于,包括以下步骤:

A、提取人声数据及噪音数据,按预设定的信噪比结合,得到训练音频数据;

B、针对每一帧训练音频数据提取MFCC特征后,经拼接得到最终特征数据;

C、拼接多帧特征数据,输入神经网络进行数据训练;

D、接收训练后的数据模型,进行三值量化处理;

E、利用相同训练数据,训练三值化bDNN后,提取并保存其权重、参数。

2.根据权利要求1所述的基于三值量化压缩的VAD实现方法,其特征在于,还包括以下步骤:

F、提取人声数据及噪音数据,按预设定的信噪比结合,获取测试音频数据;

G、针对每一帧测试音频数据提取MFCC特征后,经拼接得到最终特征数据;

H、拼接多帧特征数据,输入神经网络进行数据训练;

I、进行三值化bDNN,计算待预测帧的预测值,待批量预测结束后,将所有预测中包含待预测帧的结果求平均值,得到当前帧的最终预测值。

3.根据权利要求2所述的基于三值量化压缩的VAD实现方法,其特征在于,所述步骤I还包括以下步骤:

判断最终预测值是否大于设定阈值,若是,则判定待预测帧含语音,反之,则不含语音。

4.根据权利要求3所述的基于三值量化压缩的VAD实现方法,其特征在于,所述步骤I还包括以下步骤:

计算AUC值作为评估标准,AUC值取值为(0,1)。

5.根据权利要求4所述的基于三值量化压缩的VAD实现方法,其特征在于,所述步骤I还包括以下步骤:

将测试音频的波形与预测结果进行可视化展示。

6.根据权利要求2所述的基于三值量化压缩的VAD实现方法,其特征在于,所述步骤A和步骤F中混合人声数据及噪音数据的步骤还包括:

P1、构造噪声数据列表与语料数据列表;

P2、设定每段音频的长度为L,从步骤S1中的噪声列表中随机选择音频进行串联,直到长度达到L;

P3、从步骤S1中的语料数据列表中随机选取一段音频,在所选取的音频首尾各添加音频总长度1/4的静音,重复选取至长度达到L;

P4、将选取的音频与噪声按预设定的信噪比结合,获取音频数据。

7.根据权利要求2所述的基于三值量化压缩的VAD实现方法,其特征在于,所述步骤B和步骤G中提取MFCC特征的步骤还包括:

Q1、对每一帧音频数据进行预加重,其中预加重因子取0.97;

Q2、对每一帧音频数据进行分帧,设定帧长为32ms,帧移为16ms;

Q3、基于汉明窗函数进行加窗,汉明窗函数如下:

Q4、进行快速傅里叶变换,将信号分离到不同的子带;

Q5、计算不同子带的能量;

Q6、生成相应的梅尔滤波器对子带进行滤波,梅尔滤波函数如下:

Q7、计算每个梅尔滤波器输出的对数能量;

Q8、经离散余弦变换,得到MFCC系数;

Q9、提取一阶差分参数;

Q10、将MFCC系数与其一阶差分参数拼接,得到最终特征数据。

8.根据权利要求2所述的基于三值量化压缩的VAD实现方法,其特征在于,所述步骤C和步骤H中拼接多帧特征数据的步骤包括:

S1、获取每一帧最终特征数据;

S2、提升每一帧的上下文信息,生成每一帧上的多个基预测;

S3、拼接包括待预测帧在内的5帧特征数据,输入神经网络进行数据训练。

9.根据权利要求1所述的基于三值量化压缩的VAD实现方法,其特征在于,所述步骤D中进行三值量化的步骤包括:

D1、接收训练后的数据模型,从该数据模型的矩阵中,计算得出阈值Δ和缩放因子α,计算公式如下:

其中,IΔ={1≤i≤n||Wi>Δ|},|IΔ|表示IΔ中的元素;

D2、将原权重转变为三值权重,三值权重公式如下:

D3、将输入X与缩放因子α相乘作为新的输入数据,并与三值权重进行加法计算进行正向传播;

D4、使用SGD算法反向传播进行迭代训练。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州芯声智能科技有限公司,未经杭州芯声智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010704640.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top