[发明专利]有效语音识别方法及系统有效
申请号: | 201510055655.3 | 申请日: | 2015-01-30 |
公开(公告)号: | CN104575498B | 公开(公告)日: | 2018-08-17 |
发明(设计)人: | 付姝华 | 申请(专利权)人: | 深圳市云之讯网络技术有限公司 |
主分类号: | G10L15/20 | 分类号: | G10L15/20 |
代理公司: | 广州市越秀区哲力专利商标事务所(普通合伙) 44288 | 代理人: | 李悦;张鹏 |
地址: | 518000 广东省深圳市南山区高新*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 有效 语音 识别 方法 系统 | ||
有效语音识别方法及系统,方法包括以下步骤:步骤A:实时获取当前语音帧的语音频谱分布;步骤B:实时获取当前语音帧的短时能量和长时能量;步骤C:根据语音频谱分布、长时能量和短时能量获取语音类似度;以及步骤D:判断语音类似度是否大于预设的语音类似度阈值,若是,执行步骤E;若否,执行步骤F;步骤E:判定当前语音帧为有效语音;以及步骤F:判定当前语音帧为非语音。上述发明实时获取每一语音帧的语音频谱分布和能量变化,并根据语音频谱分布和能量变化快速识别出有效语音,无需像传统方法那样结合多帧才能综合判断,故,即使所应用的场景频繁切换也能可靠快速地识别。
技术领域
本发明涉及一种有效语音识别方法及系统。
背景技术
传统识别有效语音的方法一般基于能量大小、过零率、自相关等原理,其需连续对若干语音数据帧综合作出判决,这些方法在固定的场景下有较好识别效果,但对于非固定场景及场景频繁切换时,如安静环境到办公室吵杂环境、公交内、工地等等,实时识别效果差,且有效语音的识别率会大幅降低。
发明内容
针对现有技术的不足,本发明旨在于提供一种可解决上述技术问题的有效语音识别方法及系统。
为实现上述目的,本发明采用如下技术方案:
一种有效语音识别方法,其包括以下步骤:
步骤A:实时获取当前语音帧的语音频谱分布;
步骤B:实时获取当前语音帧的短时能量和长时能量;
步骤C:根据语音频谱分布、长时能量和短时能量获取语音类似度;以及
步骤D:判断语音类似度是否大于预设的语音类似度阈值,若是,执行步骤E;若否,执行步骤F;
步骤E:判定当前语音帧为有效语音;以及
步骤F:判定当前语音帧为非语音。
优选地,步骤A包括以下子步骤:
步骤A1:实时根据傅里叶变换将当前的语音帧变换为语音频域;
步骤A2:获取该语音频域的各频谱处的能量;以及
步骤A3:根据各频谱处的能量统计语音频谱分布。
优选地,步骤A1根据公式I将当前的语音换到语音频域X(k),公式I为X(k)=FFT(x(j)),j∈(0,N)为时域样点序号,k∈(0,N)为频域样点序号;
步骤A2根据公式II计算该语音频域的各频谱处的能量E(k),公式II为E(k)=|X(k)|^2,k∈(0,N);
步骤A3根据公式III和各频谱处的能量统计语音频谱分布p,公
优选地,步骤B包括以下子步骤:
步骤B1:根据公式IV计算该语音频域的短时能量Es,公式IV为i∈(0,N),b为滤波器更新系数,取值范围为[0,1],Ei指第i个频谱能量;以及
步骤B2:根据公式V计算该语音频域的长时能量El,公式V为i∈(0,N),a为滤波器更新系数,取值范围[0,1],Ei指第i个频谱能量。
优选地,步骤C根据公式VI、语音频谱分布p、长时能量El和短时能量Es计算语音类似度γ,公式VI为c为常数,取值范围为[0,1];e为自然指数。
一种有效语音识别系统,其包括以下模块:
模块A:实时获取当前语音帧的语音频谱分布;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市云之讯网络技术有限公司,未经深圳市云之讯网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510055655.3/2.html,转载请声明来源钻瓜专利网。