[发明专利]语音活动侦测方法及装置有效
申请号: | 201610505487.8 | 申请日: | 2016-06-30 |
公开(公告)号: | CN107564512B | 公开(公告)日: | 2020-12-25 |
发明(设计)人: | 孙廷玮;柯逸倩 | 申请(专利权)人: | 展讯通信(上海)有限公司 |
主分类号: | G10L15/04 | 分类号: | G10L15/04;G10L15/10;G10L15/14;G10L19/02;G10L19/032 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 郭学秀;吴敏 |
地址: | 201203 上海市浦东新区张*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 活动 侦测 方法 装置 | ||
语音活动侦测方法及装置,所述方法包括:将输入的声音数据划分为多个非重叠的帧;对所述多个非重叠的帧进行遍历,计算得到当前帧的频谱能量、短时能量和周期数;计算当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率;构建当前帧的概率空间矩阵;基于当前帧的概率空间矩阵,计算当前帧对应的VAD向量,所述VAD向量中包括语音类别分值、非语音类别分值和静音类别分值;当确定所述语音类别分值分别大于所述非语音类别分值和所述静音类别分值,确定对应的当前帧中包括语音信息。上述的方案,可以提高语音活动侦测的准确率。
技术领域
本发明涉及语音识别技术领域,特别是涉及一种语音活动侦测方法及装置。
背景技术
移动终端,是指可以在移动中使用的计算机设备,广义地讲包括手机、笔记本、平板电脑、POS机、车载电脑等。随着集成电路技术的飞速发展,移动终端已经拥有了强大的处理能力,移动终端正在从简单的通话工具变为一个综合信息处理平台,这也给移动终端增加了更加宽广的发展空间。但是,移动终端的使用,通常需要用户集中一定的注意力。如今的移动终端设备都配备有触摸屏,用户需要触摸所述触摸屏,以执行相应的操作。但是,用户无法触碰到移动终端设备时,操作移动终端便会变得极其不方便,如当用户驾驶车辆或者手中提有物品的时候。
语音识别方法和总听系统(Always Listening System)的使用,使得可以对移动终端进行非手动激活和操作。当所述总听系统检测到声音信号时,语音识别系统便会激活,并对检测到的声音信号进行识别,之后,移动终端便会根据所识别出的声音信号执行相应的操作,例如,当用户输入“拨打XX的手机”的语音时,移动终端便可以对用户输入的“拨打XX的手机”的语音信息进行识别,并在正确识别后,从移动终端中获取XX的手机号码的信息,并拨打。
但是,现有技术中语音活动侦测方法,存在着语音识别速度慢且准确率低的问题。
发明内容
本发明实施例解决的问题是提高语音识别的准确率。
为解决上述问题,本发明实施例提供了一种语音活动侦测方法,包括:将输入的声音数据划分为多个非重叠的帧;对所述多个非重叠的帧进行遍历,计算得到当前帧的频谱能量、短时能量和周期数;基于当前帧的频谱能量、短时能量和周期数,计算当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率;采用当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率构建当前帧的概率空间矩阵;基于当前帧的概率空间矩阵,计算当前帧对应的VAD向量,所述VAD向量中包括语音类别分值、非语音类别分值和静音类别分值;当确定所述语音类别分值分别大于所述非语音类别分值和所述静音类别分值,确定对应的当前帧中包括语音信息。
可选地,所述计算得到当前帧的频谱能量、短时能量和周期数,包括:对当前帧进行离散傅立叶变换运算得到对应的频谱能量;基于所述当前帧对应的频谱能量,计算得到当前帧的短时能量;采用短时自相关函数对当前帧进行周期估计,得到当前帧的周期数。
可选地,所述基于所述当前帧对应的频谱能量,计算得到当前帧的短时能量,包括:将当前帧中的所有采样点的幅度的平方和,作为当前帧的短时能量。
可选地,在采用短时自相关函数对当前帧进行周期估计,得到当前帧的周期数之前,所述方法还包括:对当前帧进行三电平中心削波处理。
可选地,在所述对当前帧进行离散傅立叶变换运算得到对应的频谱能量之前,所述方法还包括:滤除各个帧的直流偏移。
可选地,在所述对遍历至的当前帧进行离散傅立叶变换运算得到对应的频谱能量之前,所述方法还包括:对当前帧采用汉明窗进行加窗处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于展讯通信(上海)有限公司,未经展讯通信(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610505487.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:可以旋转锁定、解锁的电子乐器设备
- 下一篇:语音识别方法及装置