[发明专利]乐器音色迁移下的人声音色相似性度量方法有效
申请号: | 201810105191.6 | 申请日: | 2018-02-02 |
公开(公告)号: | CN108417228B | 公开(公告)日: | 2021-03-30 |
发明(设计)人: | 余春艳;齐子铭;刘煌;张栋 | 申请(专利权)人: | 福州大学 |
主分类号: | G10L25/81 | 分类号: | G10L25/81;G10L15/06;G10L15/16;G10L21/0224;G10L21/0232;G10L21/0272;G10L25/18;G10L25/24;G10L25/30 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊 |
地址: | 350108 福建省福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 乐器 音色 迁移 人声 相似性 度量 方法 | ||
本发明涉及一种乐器音色迁移下的人声音色相似性度量方法。该方法首先计算数据量充分且均衡的乐器数据集音频的对数梅尔频谱特征,得到特征矩阵,用乐器数据训练深度卷积神经网络模型,得到训练好的深度卷积神经网络模型;接着对数据量不充分、不均衡的人声音频数据集,用同样的方法计算得到它的对数梅尔频谱特征,再采用基于迁移学习的微调方法对已训练好的深度卷积神经网络模型进行微调,得到人声音色的表征模型,模型的输出则为人声的音色向量,最后通过计算音色向量之间的余弦相似度,可实现人声音色的相似性度量。
技术领域
本发明属于歌唱领域的音频信号处理领域,特别是涉及一种乐器音色迁移下的人声音色相似性度量方法。
背景技术
美国国家标准化研究所对音色做了如下定义,“音色是指声音在听觉上产生的某种属性,听音者能够据此判断两个以同样方式呈现、具有相同音高和响度的声音的不同”。由此,演唱时的人声音色是指当不同的演唱者演唱同一首歌曲时,人们用来判别出具体是哪个演唱者的声音特征。
声学实验中常用声谱图进行声音的分析。声谱图可以显示幅度随频率和时间变化的特性,纵坐标代表频率,横坐标代表时间,幅度的大小用灰颜色的深浅表示或用光谱的不同颜色表示。从声谱图的角度来看,决定音色的因素是泛音的存在与否以及它们的相对强弱。
一直以来有大量的学者对声音信号处理进行研究,希望能够对人声音色的相似性进行度量,但时至今日,学术界对音色这一主观乐音属性的表征和相似度评价仍不存在一个统一的标准。因此,音色的特征表征、度量指标和相似度度量等方面有待继续研究。
目前对于音色的研究主要包括乐器的分类与识别及歌手识别等,主要通过各类音色物理特征及分类模型实现。常见的音色分类的物理特征可以分为时域特征,频域特征及倒频域特征三大类。
时域特征:时域特征反应声音的动态变化。不同音频信号的时域包络都各不相同。为了全面分析乐音,可分为起振、稳态和衰减三个阶段。起振指乐音从无到有的开始部分,稳态是乐音的主要部分,衰减指乐音从有到无的结束部分。乐音的起振和衰减部分持续时间大概是几十毫秒,但是起振阶段对音色的区分有着非常重要的作用。
频域特征:频域分析的尺度不同将会得到不同的频谱。常见的频谱有STFT谱及CQT谱。
1)STFT谱的滤波器组中心频率成线性上升,每个滤波器的带宽不变,计算公式如下:
其中,x(n)是某一帧的语音信号,w(n)为加窗函数。
2)CQT产生的频谱在频率轴为对数标度,而不是线性标度,且窗口长度随频率的改变而改变,这使得CQT比STFT有着更好的性能。CQT的定义形式公式如下:
其中,是窗函数,[g]表示大于等于x的最小整数,fs为采样频率,fk是音阶频率,fk=f0*2k/b。
倒频域特征:Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)是基于人的听觉感知模型提出的,在乐音、语音分类识别等领域中被证明是最重要的特征之一,人对频域的主观感知划定是非线性的,即fmel=1125log(1+f/700),fmel是以美尔为单位的感知频率, f是以赫兹为单位的实际频率。将信号频谱转换到感知域可以很好的模拟听觉处理的过程。计算 MFCC时,先对信号进行分帧、加窗、预加重的预处理,然后把每帧信号进行FFT变换变成频域数据后,计算谱线能量,把每帧信号的谱线能量通过Mel滤波器,计算在该滤波器中的能量。把通过Mel滤波器的谱线能量取对数后计算DCT,即得到MFCC。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810105191.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于语音的资源配置方法及系统
- 下一篇:一种物理隔离装置及数据传输方法