[发明专利]一种基于稀疏编码的听觉脉冲编码方法及系统有效
申请号: | 202010273268.8 | 申请日: | 2020-04-09 |
公开(公告)号: | CN111462766B | 公开(公告)日: | 2022-04-26 |
发明(设计)人: | 唐华锦 | 申请(专利权)人: | 浙江大学 |
主分类号: | G10L19/02 | 分类号: | G10L19/02;G10L19/107 |
代理公司: | 北京方圆嘉禾知识产权代理有限公司 11385 | 代理人: | 冯静 |
地址: | 310058 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 稀疏 编码 听觉 脉冲 方法 系统 | ||
本发明涉及一种基于稀疏编码的听觉脉冲编码方法及系统。所述方法包括:构造可表达声音基础元素的核函数组;获取待编码的声音信号;对所述待编码的声音信号进行预处理,获得预处理后的待编码声音信号;根据所述预处理后的待编码声音信号,采用时序匹配追踪算法,获得多个所述预处理后的待编码声音信号的稀疏编码;将每个所述稀疏编码映射为听觉脉冲编码。本发明产生的听觉脉冲模式的编码可适用于脉冲神经网络,且能保证高编码效率与高编码保真度。
技术领域
本发明涉及声音处理领域,特别是涉及一种基于稀疏编码的听觉脉冲编码方法及系统。
背景技术
自然界中的声音结构具有非静态和时间相关的特性,例如瞬态(transients),声学事件之间的时间关系以及谐波周期性等。在声音定位中,人类受试者可以可靠地检测到小于10μs的耳间时间差异,这对应于约1度的双耳声源偏移。相比之下,在44.1kHz采样的音频CD的采样间隔为22.7μs。研究表明,一些声音线索,如声音事件的起点和偏移、谐波协调调制以及声源定位,都依赖于精确的时间信息。因此,从自然界中提取包含精确的时间信息的声音结构特征是一件非常重要的事情。然而,这其中面临着许多挑战,因为在自然声学环境中,伴随着多种声源和背景噪音,声音事件不能直接观察到,必须使用许多模糊的线索来推断。
大部分传统的声音特征表达方式,如离散小波变换(Discrete WaveletTransform)、感知线性预测(Perceptual Liner Prediction)、梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients))等,都是基于时间块,即信号是在一系列离散块中分段处理的。信号中的瞬态和非稳定周期可以在块之间暂时模糊,这会使得声音事件的精准表达会因为块的任意对齐发生大的偏移。因此,当处理需要对时间敏感的声学任务时,传统的声音表达方式会存在声音事件信息偏移的弊端。
发明内容
本发明的目的是提供一种基于稀疏编码的听觉脉冲编码方法及系统,以提高声音编码效率和保真度。
为实现上述目的,本发明提供了如下方案:
一种基于稀疏编码的听觉脉冲编码方法,所述方法包括:
构造可表达声音基础元素的核函数组;
获取待编码的声音信号;
对所述待编码的声音信号进行预处理,获得预处理后的待编码声音信号;
根据所述核函数组和所述预处理后的待编码声音信号,采用时序匹配追踪算法,获得多个所述预处理后的待编码声音信号的稀疏编码;
将每个所述稀疏编码映射为听觉脉冲编码。
可选的,所述构造可表达声音基础元素的核函数组,具体包括:
根据等效矩形带宽原则确定中心频率组;所述中心频率组包括多个中心频率,每个所述中心频率的取值不同;
根据所述中心频率组,构造一组具有多种中心频率的gammatone函数。
可选的,所述对所述待编码的声音信号进行预处理,获得预处理后的待编码声音信号,具体包括:
判断所述待编码的声音信号是否为多声道信号,得到第一判断结果;
若所述第一判断结果表示所述待编码的声音信号是多声道信号,则对所述多声道信号中的所有声道的信号进行平均,得到一个单声道信号;
根据所述单声道信号确定所述单声道信号的绝对值最大值;
将所述单声道信号除以所述单声道信号的绝对值最大值,得到预处理后的待编码声音信号;
若所述第一判断结果表示所述待编码的声音信号不是多声道信号,则获取所述待编码的声音信号的绝对值最大值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010273268.8/2.html,转载请声明来源钻瓜专利网。