[发明专利]一种基于姿态传感器的语音活动检测方法有效
申请号: | 202110646290.7 | 申请日: | 2021-06-10 |
公开(公告)号: | CN113327589B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 王蒙;胡奎;姜黎 | 申请(专利权)人: | 杭州芯声智能科技有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/16;G10L15/24;G10L19/02;G10L21/0232;G10L25/18 |
代理公司: | 成都知都云专利代理事务所(普通合伙) 51306 | 代理人: | 赵正寅 |
地址: | 310000 浙江省杭州市杭州经济技术*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 姿态 传感器 语音 活动 检测 方法 | ||
1.一种基于姿态传感器的语音活动检测方法,运用于具备姿态传感器的音频采集装置中,其特征在于,通过构建兼顾姿态特征数据与声音特征数据的混合特征数据进行神经网络量化训练,并得到神经网络模型最优解,所述神经网络模型用于语音活动检测,所述混合特征数据经过如下步骤进行构建:
通过姿态传感器采集音频采集装置的姿态变化并记录作为姿态特征数据;
通过音频采集装置采集外部声音变化并作为声音特征数据;
分别对姿态特征数据与声音特征数据进行数据预处理操作;
对预处理后的姿态特征数据与声音特征数据进行特征拼接,得到混合特征数据;
将混合特征数据作为神经网络量化训练数据,用于后续的模型训练;
并通过如下步骤对预处理后的姿态特征数据与声音特征数据进行特征拼接:
将收集到的声音特征数据与姿态特征数据按照实时相应的位置进行一一标明点位信息;
对姿态传感器的姿态特征数据进行声音特征数据起始位置和结束位置的信息标注;
按照信噪比要求将随机噪声数据以随机SNR的方式与标注后的声音特征数据进行数据混合,并确保混合后数据与声音特征数据起始位置和结束位置一一对应;
将混合后数据与标明点位信息后的姿态特征数据进行对标,并由此得到一条特征拼接后的训练数据;
对所有姿态特征数据与声音特征数据均进行特征拼接,并得到特征拼接后的训练数据集。
2.根据权利要求1所述的一种基于姿态传感器的语音活动检测方法,其特征在于,所述声音特征数据为MFCC特征数据,并通过如下步骤进行MFCC声音特征数据提取和声音特征数据预处理操作:
通过高通滤波器对声音特征数据进行预加重;
通过分帧函数对预加重数据进行分帧操作;
将每一分帧带入窗函数进行加窗操作;
对加窗后的各分帧信号进行快速傅里叶变换得到各分帧的能量谱;
对能量谱行离散余弦变换得到MFCC系数;
对梅尔频谱图提取一阶差分参数;
将MFCC系数和一阶差分参数进行拼接,得到MFCC特征数据。
3.根据权利要求1所述的一种基于姿态传感器的语音活动检测方法,其特征在于,对姿态特征数据预处理操作是将时域姿态特征数据转换成频域姿态特征数据的操作,所述姿态特征数据为包括X轴、Y轴和Z轴的姿态特征数据,通过如下步骤进行姿态特征数据预处理操作:
对姿态特征数据进行分帧操作,姿态特征数据的每一分帧与声音特征数据的每一分帧进行一一对应;
通过姿态特征数据计算每一分帧的位移量,计算公式为:
s(n)=f(n)-f(n-1);n∈(0,512];
as(n)=s(n)-s(n-1);n∈(0,512];
其中,s(n)表示第n分帧的速度,as(n)表示第n分帧的加速度,f(n)表示第n分帧的数据位置标签;
将计算获得速度以及加速度分别进行对数变换;
将速度和加速度拼接在一起,得到姿态特征数据。
4.根据权利要求1所述的一种基于姿态传感器的语音活动检测方法,其特征在于,所述神经网络模型为循环神经网络模型,所述循环神经网络模型采集相邻帧的信息,并根据相邻帧的信息对当前帧语音活动检测的权重矩阵进行调整。
5.根据权利要求1所述的一种基于姿态传感器的语音活动检测方法,其特征在于,对训练完成的神经网络量进行量化压缩,通过量化压缩将32bit浮点型权值量化为2bit定点型权值;量化压缩步骤如下:
从原矩阵中计算得出阈值Δ和缩放因子α
将原权重转变为三值权重;
将输入X与α相乘作为新的输入然后与三值权重进行加法计算代替原本的乘法计算进行正向传播;
使用SGD算法反向传播进行迭代训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州芯声智能科技有限公司,未经杭州芯声智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110646290.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种整体运输用危险品放置架
- 下一篇:一种歌曲视频合成的方法及播放器