[发明专利]语音活动侦测方法及装置在审

专利信息
申请号: 201610607277.X 申请日: 2016-07-28
公开(公告)号: CN107665711A 公开(公告)日: 2018-02-06
发明(设计)人: 孙廷玮;柯逸倩 申请(专利权)人: 展讯通信(上海)有限公司
主分类号: G10L15/26 分类号: G10L15/26;G10L19/02;G10L25/78
代理公司: 北京集佳知识产权代理有限公司11227 代理人: 郭学秀,吴敏
地址: 201203 上海市浦东新区张*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 语音 活动 侦测 方法 装置
【说明书】:

技术领域

发明涉及语音识别技术领域,特别是涉及一种语音活动侦测方法及装置。

背景技术

移动终端,是指可以在移动中使用的计算机设备,广义地讲包括手机、笔记本、平板电脑、POS机、车载电脑等。随着集成电路技术的飞速发展,移动终端已经拥有了强大的处理能力,移动终端正在从简单的通话工具变为一个综合信息处理平台,这也给移动终端增加了更加宽广的发展空间。但是,移动终端的使用,通常需要用户集中一定的注意力。如今的移动终端设备都配备有触摸屏,用户需要触摸所述触摸屏,以执行相应的操作。但是,用户无法触碰到移动终端设备时,操作移动终端便会变得极其不方便。例如,当用户驾驶车辆或者手中提有物品的时候。

语音识别方法和总听系统(Always Listening System)的使用,使得可以对移动终端进行非手动激活和操作。当所述总听系统检测到声音信号时,语音识别系统便会激活,并对检测到的声音信号进行识别,之后,移动终端便会根据所识别出的声音信号执行相应的操作,例如,当用户输入“拨打XX的手机”的语音时,移动终端便可以对用户输入的“拨打XX的手机”的语音信息进行识别,并在正确识别后,从移动终端中获取XX的手机号码的信息,并拨打。

但是,现有技术中语音活动侦测方法,一般采用预设数学模型对输入的声音数据进行语音识别,存在着语音识别速度慢且准确率低的问题。

发明内容

本发明实施例解决的问题是如何提高语音识别的速度和准确率。

为解决上述问题,本发明实施例提供了一种语音活动侦测方法,所述语音活动侦测方法包括:将获取的待识别的声音数据划分为多个重叠的帧,并对每个帧进行快速傅立叶变换运算,得到对应的频谱;对所述多个重叠的帧的频谱进行遍历,计算遍历至的当前帧的频谱能量域的香农熵能量;当确定当前帧的频谱能量域的香农熵能量大于预设的阈值时,确定当前帧包括语音信息。

可选地,所述计算遍历至的当前帧的频谱能量域的香农熵能量,包括:

其中,H(|Y(w,t)|2)表示当前帧的频谱能量域的香农熵能量,P(|Y(w,t)|2表示当前帧t的幅度谱在对应频段w中的概率,Y(w,t)表示当前帧t对应的频段w的噪音类型,ε表示划分得到的频段的数量。

可选地,所述预设的阈值与所述待识别的声音数据的噪音频谱特性相关联。

可选地,采用如下方式计算得到所述预设的阈值:基于所述多个重叠的帧的频谱能量域的香农熵,确定对应的两个高斯分布函数;其中,所确定的两个高斯分布函数用于模拟所述多个重叠的帧的频谱能量域的香农熵;采用所确定的高斯分布函数,计算得到所述阈值。

可选地,所述确定对应的两个高斯分布函数,包括:采用最大期望值法确定对应的两个高斯分布函数。

本发明实施例还提供了一种语音活动侦测装置,所述装置包括:傅立叶变换单元,适于将获取的待识别的声音数据划分为多个重叠的帧,并对每个帧进行快速傅立叶变换运算,得到对应的频谱;第一计算单元,适于对所述多个重叠的帧的频谱进行遍历,计算遍历至的当前帧的频谱能量域的香农熵能量;判断单元,适于判断当前帧的频谱能量域的香农熵能量是否大于预设的阈值;确定单元,适于当确定当前帧的频谱能量域的香农熵能量大于所述阈值时,确定当前帧包括语音信息。

可选地,所述第一计算单元适于采用如下的公式计算遍历至的当前帧的频谱能量域的香农熵能量:

其中,H(|Y(w,t)|2)表示当前帧的频谱能量域的香农熵能量,P(|Y(w,t)|2表示当前帧t的幅度谱在对应频段w中的概率,Y(w,t)表示当前帧t对应的频段w的噪音类型,ε表示划分得到的频段的数量。

可选地,所述预设的阈值与当前待识别的声音数据对应的噪音的频谱特性相关联。

可选地,所述装置还包括:第二计算单元,适于基于所述多个重叠的帧的频谱能量域的香农熵,确定对应的两个高斯分布函数;其中,所确定的两个高斯分布函数用于模拟所述多个重叠的帧的频谱能量域的香农熵;采用所确定的高斯分布函数,计算得到所述阈值。

可选地,所述第二计算单元,适于采用最大期望值法确定对应的两个高斯分布函数。

与现有技术相比,本发明的技术方案具有以下的优点:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于展讯通信(上海)有限公司,未经展讯通信(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610607277.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top