[发明专利]基于带限正交分量的声音编码方法和系统有效

申请号：	201310152857.0	申请日：	2013-04-27
公开（公告）号：	CN104123947B	公开（公告）日：	2017-05-31
发明（设计）人：	冯海泓;孟庆林;赵建平;原猛;陈友元	申请（专利权）人：	中国科学院声学研究所
主分类号：	G10L19/20	分类号：	G10L19/20;G10L19/26;G10L25/84;A61F11/04
代理公司：	北京法思腾知识产权代理有限公司11318	代理人：	杨小蓉,杨青
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于正交分量声音编码方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明提出了基于带限正交分量声音编码方法和系统，适用于人工耳蜗等采用分频带方式的电刺激听觉辅助设备，具体涉及一种基于带限正交分量的声音编码方法和系统。

背景技术

声码器模型为音频编码中的经典模型，为了在有限的通信带宽范围内传输语音信号，声码器模型将语音信号进行分频带处理，并提取出每个频带输出信号的包络，将各个频带的包络信号和检测到的音高信息、清浊信息通过通信线路进行传输，这样可以降低数据带宽。

声码器模型还被用于语音合成、乐器音合成。另外，有研究表明，仅利用很小数量的分频带数的包络信息就可以有效的传达语义。该模型被广泛的应用于人工耳蜗信号处理策略中来。例如连续间隔采样策略（Continuous Interleaved Sampling,CIS），该策略为目前人工耳蜗产品所采用的主流策略。

CIS的主要操作流程为：首先将麦克风采集到的音频信号进行分频带处理，然后提取各个频带输出信号的包络信号，再根据听力师预先测得的人工耳蜗植入者的各个电极的有效感知范围（即最小感知阈值和最大感受门限）进行非线性动态范围压缩，最后调制电脉冲序列并送至各个电极。

从以上流程可以看出，各个频带中仅保留包络信息，其他信息被抛弃掉了。有研究表明，在安静环境下植入者利用以上类型的策略已经可以获得良好的言语识别率，但对于声调、音乐等的感知还有待提高，另外在噪声环境下的感知效果也有待提高。

针对上述存在问题，研究者们开始考虑将上面流程中“抛弃”掉的部分重新找回来，加入到电刺激信号中，这部分信号通常被称为“精细结构”。这类研究的基本假设模型为“包络-精细结构（Envelope-Fine Structure,EF）”模型或称为“幅度调制-频率调制”模型。该模型中将第k个频带输出的信号x_k(t)分解为x_k(t)＝m_k(t)·c_k(t)。其中m_k(t)为包络，c_k(t)为精细结构。

在带通语音信号分解研究中，除了“包络-精细结构”模型外还有一种经典的模型为Rosen提出的“包络-周期性-精细结构（Envelpe-Periodicity-Fine Structure,EPF）”模型。EPF模型采用整流对带通语音信号进行处理，然后对每个频带的整流输出分别提取0-50Hz,50-500Hz,>500Hz的部分分别作为包络、周期性和精细结构。

根据心理声学理论可知，电刺激听觉感知与声刺激听觉感知有显著的差异，电刺激听觉在信号表达上试图模拟声刺激听觉，但由于目前对于人类听觉系统的认识离完美还有很大距离，电刺激听觉的时频分析能力远不及正常听力者的声刺激听觉感知。在现有人工耳蜗技术中，位置理论和时间理论就体现得更为直接。基底膜上不同位置对应不同的感音频率，然而同一个电极上的刺激幅度的起伏也会带给植入者以频率信息。

人工耳蜗信号处理策略中常采用类似的方法取得包络信息，只是其中的低通滤波截止频率可以根据实际情况进行选择。另外一种方法就是采用希尔伯特变换取得带通信号的希尔伯特包络。

另外，利用EF模型，研究者们建议将精细结构信息增加到电刺激信号中来，以增强植入者在噪声环境下的听音效果。也已经有研究者开始尝试。

这些尝试中，典型的思想是将带通信号x_k(t)建模为准正弦振荡形式：

其中，m_k(t)为第k个频带的包络，f_ck为第k个频带的中心频率，然后不同于经典的取包络的方法，而是采样m_k(t)(t)作为新的包络进行处理。

这种方法，初衷是通过包络向植入者传递了更多的“信息”，然而该类方法存在明显的缺点。当声信号为纯音信号时，例如纯音信号的频率为1.01kHz，即x_k(t)＝cos(π2 10t1，0若)该信号落在中心频率为1kHz的频带内时，此时的(t)是频率为10Hz的单频信号，即m_k(t)(t)＝cos(2π10t)，该信号调制电脉冲后刺激听神经给植入者带来的感觉将不是纯音感知而是响度的起起伏伏。从以上示例可以看出，仅仅通过m_k(t)(t)的方式增加精细结构信息不一定能够达到理想的效果。这些问题的根源在于模型的模糊性，如何有效增加“精细结构”是个难点。

发明内容

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所，未经中国科学院声学研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310152857.0/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于递归神经网络的路网状态预测方法
下一篇：城市道路交通运行分析评价系统

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L19-00 用于冗余度下降情形
G10L19-02 .利用频谱分析，例如变换声码器或子频带声码器
G10L19-04 .利用预测技术
G10L19-06 ..例如短期预测系数的频谱特征的确定或编码
G10L19-08 ..激励函数的确定或编码；长期预测参数的确定或编码
G10L19-14 ..不包括在G10L 19/06至G10L 19/12组中的零部件，例如增益编码、后置滤波设计或声码器结构

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于带限正交分量的声音编码方法和系统有效

专利文献下载