[发明专利]弯曲谱和精细估计音频编码有效
申请号: | 201110415397.7 | 申请日: | 2011-12-02 |
公开(公告)号: | CN102568484A | 公开(公告)日: | 2012-07-11 |
发明(设计)人: | M·L·塞尔泽;J·G·德罗珀;H·S·玛尔瓦;A·阿塞罗;樊星 | 申请(专利权)人: | 微软公司 |
主分类号: | G10L19/00 | 分类号: | G10L19/00;G10L15/00 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 陈斌 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 弯曲 精细 估计 音频 编码 | ||
1.一种计算机实现的方法,包括:
从原始音频信号(220)对弯曲频谱估计的表示(248)进行编码,所述编码基于弯曲频谱;
使用所述弯曲频谱估计表示(248)来生成所述原始音频信号的平滑估计的表示;以及
使用所述平滑估计的表示来对所述原始音频信号(220)的精细细节的精细估计表示(268)进行编码。
2.如权利要求1所述的方法,其特征在于,所述弯曲频谱估计是梅尔频谱估计。
3.如权利要求1所述的方法,其特征在于,根据变换编解码器框架来配置所述精细估计表示。
4.如权利要求1所述的方法,其特征在于,所述精细估计表示表示频域中的精细谱估计。
5.如权利要求1所述的方法,其特征在于,生成所述平滑估计的表示包括执行逆变换操作。
6.如权利要求1所述的方法,其特征在于,对所述精细估计进行编码至少部分在频域中执行。
7.一个或多个其上包含计算机可执行指令的计算机可读存储介质,所述指令在由至少一个处理器执行时使所述至少一个处理器执行以下动作:
对原始音频信号(220)的弯曲频谱估计的表示(332)进行解码;
对所述原始音频信号(220)的精细估计的表示(334)进行解码;
将所述弯曲频谱估计的表示(332)传递至语音识别引擎;以及
使用所述弯曲频谱估计的表示(332)和所述精细估计的表示(366)来重构表示所述原始音频信号(220)的音频信号(372)。
8.如权利要求7所述的一个或多个计算机可读存储介质,其特征在于,
所述弯曲频谱估计是第一弯曲频谱估计;
所述原始音频信号是第一原始音频信号;
对所述第一弯曲频谱估计的表示进行解码、对所述精细估计的表示进行解码、将所述第一弯曲频谱估计的表示传递至所述语音识别引擎、以及重构表示所述第一原始音频信号的音频信号全部在第一操作模式中执行;以及
所述动作还包括从所述第一操作模式切换至第二操作模式并在所述第二操作模式中执行各动作,所述第二操作模式中的动作包括:
对第二原始音频信号的第二弯曲频谱估计的表示进行解码;以及
将所述第二弯曲频谱估计的表示传递至所述语音识别引擎;
其中所述第二操作模式不包括重构表示所述第二原始音频信号的音频信号。
9.一种计算机实现的方法,包括:
在语音编码系统(200)中,执行以下动作:
基于弯曲频谱对原始音频信号(220)的弯曲频谱估计的表示(248)进行编码,所述编码包括动态范围缩减操作和余弦变换操作;
使用所述弯曲频谱估计表示(248)来生成所述原始音频信号(220)的谱的平滑谱估计的表示;
使用所述平滑估计表示来对所述原始音频信号(220)的精细细节的精细频谱估计的表示(268)进行编码;
将所述精细估计的表示(268)和所述弯曲频谱估计的表示(248)打包在数据流(290)中;以及
将所述数据流(290)发送至语音解码和识别系统(300)。
10.如权利要求9所述的计算机实现的方法,其特征在于,还包括:
在所述语音解码和识别系统处接收所述数据流;
在所述语音解码和识别系统中,执行以下动作:
对所述数据流的各分量进行解码,包括对所述原始音频信号的弯曲频谱估计的表示进行解码,以及对所述原始音频信号的精细估计的表示进行解码;
将所述弯曲频谱估计的表示传递至所述语音识别系统中的语音识别引擎;以及
重构表示所述原始音频信号的音频信号,所述重构包括扩展所述弯曲频谱估计的表示的动态范围、执行逆余弦变换操作、使用所述弯曲频谱估计表示来生成平滑谱估计表示,以及将所述平滑谱估计与所述精细估计进行组合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110415397.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电子通信优先分配
- 下一篇:去除测序文库中的载体片段的方法