[发明专利]语音活动侦测方法及装置有效
申请号: | 201610505487.8 | 申请日: | 2016-06-30 |
公开(公告)号: | CN107564512B | 公开(公告)日: | 2020-12-25 |
发明(设计)人: | 孙廷玮;柯逸倩 | 申请(专利权)人: | 展讯通信(上海)有限公司 |
主分类号: | G10L15/04 | 分类号: | G10L15/04;G10L15/10;G10L15/14;G10L19/02;G10L19/032 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 郭学秀;吴敏 |
地址: | 201203 上海市浦东新区张*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 语音活动侦测方法及装置,所述方法包括:将输入的声音数据划分为多个非重叠的帧;对所述多个非重叠的帧进行遍历,计算得到当前帧的频谱能量、短时能量和周期数;计算当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率;构建当前帧的概率空间矩阵;基于当前帧的概率空间矩阵,计算当前帧对应的VAD向量,所述VAD向量中包括语音类别分值、非语音类别分值和静音类别分值;当确定所述语音类别分值分别大于所述非语音类别分值和所述静音类别分值,确定对应的当前帧中包括语音信息。上述的方案,可以提高语音活动侦测的准确率。 | ||
搜索关键词: | 语音 活动 侦测 方法 装置 | ||
【主权项】:
一种语音活动侦测方法,其特征在于,包括:将输入的声音数据划分为多个非重叠的帧;对所述多个非重叠的帧进行遍历,计算得到当前帧的频谱能量、短时能量和周期数;基于当前帧的频谱能量、短时能量和周期数,计算当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率;采用当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率构建当前帧的概率空间矩阵;基于当前帧的概率空间矩阵,计算当前帧对应的VAD向量,所述VAD向量中包括语音类别分值、非语音类别分值和静音类别分值;当确定所述语音类别分值分别大于所述非语音类别分值和所述静音类别分值,确定对应的当前帧中包括语音信息。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于展讯通信(上海)有限公司,未经展讯通信(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610505487.8/,转载请声明来源钻瓜专利网。
- 上一篇:可以旋转锁定、解锁的电子乐器设备
- 下一篇:语音识别方法及装置