[发明专利]一种基于姿态传感器的语音活动检测方法有效
申请号: | 202110646290.7 | 申请日: | 2021-06-10 |
公开(公告)号: | CN113327589B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 王蒙;胡奎;姜黎 | 申请(专利权)人: | 杭州芯声智能科技有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/16;G10L15/24;G10L19/02;G10L21/0232;G10L25/18 |
代理公司: | 成都知都云专利代理事务所(普通合伙) 51306 | 代理人: | 赵正寅 |
地址: | 310000 浙江省杭州市杭州经济技术*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 姿态 传感器 语音 活动 检测 方法 | ||
本发明提供的一种基于姿态传感器的语音活动检测方法,涉及人机交互技术领域。本发明通过将姿态特征数据与声音特征数据进行特征拼接,得到混合特征数据;通过混合特征数据对神经网络模型进行训练,能实现在不同姿态下对语音活动进行准确检测,解决了用户姿态会影响语音活动检测准确度的问题;通过量化压缩方法中的三值量化方法对训练完成的神经网络量进行量化压缩,将32bit浮点型权值量化为2bit定点型权值,进一步减少其占用内存大小的同时还极大地减小了对于计算空间和时间的消耗;使用循环神经网络模型来构建前后帧的数据联系,以提高模型效果;且循环神经网络模型参数量较少,进一步减少其占用内存大小。
技术领域
本发明涉及人机交互技术领域,尤其涉及一种基于姿态传感器的语音活动检测方法。
背景技术
语音活动检测(Voice Activity Detection,VAD)是一个从含有噪声的语音信号中检测出语音信号段和非语音信号段的经典问题,它在各个语音信号处理系统中已经成为一个不可或缺的重要组成成分,例如,语音编码(Speech Coding),语音增强(SpeechEnhancement),语音识别(Automatic Speech Recognition)等,随着数码设备的不断发展,语音活动检测也更多地在数码设备上进行运用。
嵌入式耳机作为当下的热门产品,其技术也在不断革新。嵌入式耳机通常与智能设备相连,不仅具备音频播放功能,还能通过采集人的声音、人的姿态信息等与智能设备进行互动,相比传统耳机,嵌入式耳机具备更加智能、功能更加丰富的特点,迅速收到人们的追捧。
嵌入式耳机作为与智能设备的互动设备,对于其数据采集能力有较高要求,例如:通过嵌入式耳机对智能手机进行声音控制时,需要采集到清晰的人声,虽然智能手机通常会对采集到的音频数据进行降噪、分离等操作,但是嵌入式耳机若不能保证提供的音频数据的清晰准确,即使智能手机所搭载的音频处理软件再强大也无济于事。
嵌入式耳机的工作环境复杂多样,使用者的各种姿态会影响其对声音的采集和识别,这些姿态变化会造成采集音频数据质量的降低,故需进行相关措施对其进行改善。
为此,申请号为CN201911174434.2的发明申请公开了一种基于传声器技术的耳机佩戴者语音活动检测系统,包括:传声器阵列、第一估计模块、第二估计模块和联合控制模块;传声器阵列,用于接收声音信号;第一估计模块,用于根据声源的来波方向,确定佩戴者的第一语音存在概率;第二估计模块,用于根据声源的直达混响比,确定佩戴者的第二语音存在概率;联合控制模块,用于根据第一语音存在概率和第二语音存在概率,确定第三语音存在概率,对佩戴者进行语音活动检测。使用传声器阵列技术,检测耳机佩戴者语音活动。即便在低信噪比、高混响情况及多说话人干扰等复杂声学场景下,也能实现佩戴者语音活动检测,为后续的语音增强及语音识别技术提供重要依据。
但是该发明申请未就使用者的姿态造成的音频数据采集变化进行处理,故我们有必要提出一种用于消除使用者姿态带来影响的语音活动检测方法来解决上述问题。
发明内容
为解决上述技术问题,本发明一种基于姿态传感器的语音活动检测方法,运用于具备姿态传感器的音频采集装置中,通过构建兼顾姿态特征数据与声音特征数据的混合特征数据进行神经网络量化训练,并得到神经网络模型最优解,所述神经网络模型用于语音活动检测,所述混合特征数据经过如下步骤进行构建:
通过姿态传感器采集音频采集装置的姿态变化并记录作为姿态特征数据;
通过音频采集装置采集外部声音变化并作为声音特征数据;
分别对姿态特征数据与声音特征数据进行数据预处理操作;
对预处理后的姿态特征数据与声音特征数据进行特征拼接,得到混合特征数据;
将混合特征数据作为神经网络量化训练数据,用于后续的模型训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州芯声智能科技有限公司,未经杭州芯声智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110646290.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种整体运输用危险品放置架
- 下一篇:一种歌曲视频合成的方法及播放器