[发明专利]用于音频编码中的DTX拖尾的方法和装置在审
申请号: | 201811579562.0 | 申请日: | 2013-12-12 |
公开(公告)号: | CN110010141A | 公开(公告)日: | 2019-07-12 |
发明(设计)人: | 斯蒂芬·布鲁恩;托马斯·詹森托夫特戈德;马丁·绍尔斯戴德 | 申请(专利权)人: | 瑞典爱立信有限公司 |
主分类号: | G10L19/012 | 分类号: | G10L19/012 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 穆童 |
地址: | 瑞典斯*** | 国省代码: | 瑞典;SE |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 拖尾 接收节点 帧集合 发送 发送节点 音频编码 不连续传输 方法和装置 背景噪声 舒适噪声 解码 非活动 关联地 可操作 描述符 帧生成 静音 话音 对话 应用 | ||
提供了用于音频编码的发送节点和接收节点及其中的方法。所述节点可操作以对话音进行编码/解码并且在话音非活动期间应用不连续传输(DTX)方案,该DTX方案包括发送/接收静音插入描述符(SID)帧。发送节点中的方法包括:从多个(N个)拖尾帧中确定代表背景噪声的帧集合Y,以及还向接收节点发送N个拖尾帧,所述N个拖尾帧至少包括所述帧集合Y。该方法还包括:与发送N个拖尾帧相关联地向接收节点发送第一SID帧,其中,第一SID帧包括向接收节点指示所确定的拖尾帧集合Y的信息。该方法使接收节点能够基于最适合于该目的的拖尾帧生成舒适噪声。
分案说明
本申请是申请日为2013年12月12日、申请号为201380073608.0、发明名称为“用于音频编码中的DTX拖尾的方法和装置”的发明专利申请的分案申请。
技术领域
本文所述的解决方案大体上涉及音频编码,具体地,涉及与音频编码中的不连续传输(DTX)相关联的拖尾帧。
背景技术
诸如3GPP AMR(3GPP TS 26.071)和AMR-WB(3GPP TS 26.171)等的当前音频或话音编码标准以及各种ITU-T话音编码标准(例如,ITU-T推荐G.729、ITU-T推荐G.718)包括不连续传输方案(DTX),该不连续传输方案(DTX)在话音非活动期间暂停话音传输,并且取而代之地以与用于编码的活动话音的比特率和帧传输率相比明显降低的比特率和帧传输率来发送静音插入描述符(SID)帧。DTX的目的是提高传输效率,这进而减少了话音通信的成本和/或增加了给定通信系统中同时可能的电话连接的数量。
当前最先进的利用DTX的通信系统在活动话音段期间发送常规话音编码帧。在诸如话音暂停等的非活动段期间,这些系统更确切地发送SID帧,接收机根据SID帧生成所谓的舒适噪声作为非活动信号的替代信号。为了实现最佳可能的DTX效率,可能期望仅在活动话音期间而非在非活动段期间(例如,在话音暂停期间)发送话音编码帧。
为了对话音和非活动进行区分,在编码侧或发送侧使用语音活动检测器(VAD)。在与活动话音段相对应的帧期间,提升(raise)了VAD标记。该构思实际上并且特别是在话音存在于背景噪声中的情形中,遭受VAD分类错误。也即是说,非活动时段被分类为活动话音时段,反之亦然。VAD的主要问题之一是话音结束点的检测,即,信号从活动话音改变为非活动的精确时间点。该问题的主要原因在于,在话音实际停止之前,很多话音偏移缓慢地衰减,使得聊天进发(talk spurt)结束可能非常好地被背景噪声覆盖。该问题的结果可能是这种话音偏移被分类为非活动,这可能导致未将相应的信号帧作为活动话音而是作为静音信号来编码、发送和重构,其中,针对该静音信号生成舒适噪声。这意味着话音偏移(话音时段的结束)可能被感知为截断的,这导致重构的话音的质量甚至可理解性显著下降。换言之,这可能导致较差的用户体验。
诸如AMR和AMR-WB等的当前最先进的编解码器通过将利用舒适噪声合成的DTX操作的开始延迟到VAD检测偏移之后多个帧来解决该问题。这是使用编码器处的DTX控制逻辑来完成的,DTX控制逻辑延长或添加将输入信号作为活动话音编码(即使VAD标记指示非活动也是如此)的时间段。该时段被称作拖尾时段,并且在AMR和AMR-WB的情况下,拖尾时段的长度为7个帧。
拖尾时段不仅用作用于避免话音后段(或偏移)截断的方式,而且还用作用于SID帧参数分析的方式。在AMR和AMR-WB的情况下,未发送(充分长的)聊天进发之后的第一SID帧参数,而是由解码器根据在拖尾时段期间接收和存储的话音帧参数来计算该第一SID帧参数(3GPP TS 26.092;3GPP TS 26.192)。基于在拖尾时段期间接收的话音帧参数进行SID帧参数的计算的目的是节省传输资源(如果不这样的话,传输资源将花费在SID帧传输上)并且最小化潜在的传输错误对第一SID帧参数的影响。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于瑞典爱立信有限公司,未经瑞典爱立信有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811579562.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:立体声音频编码器和解码器
- 下一篇:一种大容量音频信息隐藏的方法