[发明专利]一种基于K‑SVD的人工语音带宽扩展方法及装置有效

专利信息
申请号: 201410411869.5 申请日: 2014-08-18
公开(公告)号: CN104217730B 公开(公告)日: 2017-07-21
发明(设计)人: 陈喆;殷福亮;隋经纬 申请(专利权)人: 大连理工大学
主分类号: G10L21/038 分类号: G10L21/038;G10L19/107;G10L25/27
代理公司: 大连东方专利代理有限责任公司21212 代理人: 姜玉蓉,李洪福
地址: 116024 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 svd 人工 语音 带宽 扩展 方法 装置
【权利要求书】:

1.一种基于K-SVD的人工语音带宽扩展方法,其包括以下步骤:

1)在带宽扩展的发送端,对源宽带语音信号进行训练,得到宽带语音字典、窄带语音字典和窄带语音稀疏矩阵,其包括以下步骤:

①对源宽带语音信号进行低通滤波处理,得到对应的窄带语音信号;

②提取生成的窄带语音信号和源宽带语音信号各自对应的STRAIGHT光滑声道谱;

③采用K-SVD算法对所得的窄带语音STRAIGHT光滑声道谱进行训练,得到窄带语音字典和窄带语音稀疏矩阵;

④采用K-SVD算法对宽带语音STRAIGHT光滑声道谱进行训练,得到宽带语音字典,且训练过程中所用稀疏矩阵为窄带语音稀疏矩阵,以确保宽带语音字典与窄带语音字典之间的稀疏相关性;

2)在带宽扩展的接收端,采用宽带语音字典和窄带语音字典对源窄带语音信号进行带宽扩展,得到扩展出的最终宽带语音信号,其包括以下步骤:

①将源窄带语音信号进行插值和低通滤波处理,以提高源窄带语音信号的采样频率,而有效宽带不变,得到最终宽带语音信号的低频分量;

②提取经过处理的源窄带语音信号的STRAIGHT光滑声道谱;

③采用K-SVD算法对所得的源窄带语音STRAIGHT光滑声道谱进行训练,所用字典为窄带语音字典,并采用OMP稀疏编码算法得到待扩展的源窄带语音稀疏矩阵;

④将待扩展的源窄带语音稀疏矩阵和宽带语音字典相乘,得到扩展后宽带语音的STRAIGHT光滑声道谱,且利用其反推得到扩展后的初始宽带语音信号;

⑤对扩展后的初始宽带语音信号进行高通滤波处理,得到最终宽带语音信号的高频分量;

⑥将宽带语音信号的高频分量与经过低通滤波后的低频分量相叠加,得到扩展出的最终宽带语音信号。

2.如权利要求1所述的一种基于K-SVD的人工语音带宽扩展方法,其特征在于:所述步骤1)的步骤②中STRAIGHT光滑声道谱的提取过程如下:

a、将语音信号进行小波分解,得到一系列经过Gabor滤波器滤波的复信号D(t,τc):

<mrow><mi>D</mi><mrow><mo>(</mo><mi>t</mi><mo>,</mo><msub><mi>&tau;</mi><mi>c</mi></msub><mo>)</mo></mrow><mo>=</mo><mo>|</mo><msub><mi>&tau;</mi><mi>c</mi></msub><msup><mo>|</mo><mrow><mo>-</mo><mn>0.5</mn></mrow></msup><msub><mo>&Integral;</mo><msub><mi>&Omega;</mi><mn>0</mn></msub></msub><mi>s</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><msub><mover><mi>g</mi><mo>&OverBar;</mo></mover><mrow><mi>A</mi><mi>G</mi></mrow></msub><mrow><mo>(</mo><mfrac><mrow><mi>t</mi><mo>-</mo><mi>u</mi></mrow><msub><mi>&tau;</mi><mi>c</mi></msub></mfrac><mo>)</mo></mrow><mi>d</mi><mi>u</mi></mrow>

其中,t为语音信号上的时间平移变量,且0≤t≤T0,T0为语音信号时长;τc为gAG(t)的伸缩因子,表示滤波时对应的滤波通道且0≤τc≤t0,t0一般取10ms;u代表积分变量,取值范围为积分区间Ω0,即s(t)为0到t时间段的语音输入信号;gAG(t)为分析小波,由复合的Gabor滤波器得到,gAG(t)=g(t-1/4)-g(t+1/4),其中η为Gabor滤波器的频率分辨率,根据Gabor滤波器特性取值,通常η>1;

b、把复信号D(t,τc)按时间段分为多个重叠的区间段,即把t分为[0,t0],[0.5t0,1.5t0],...,[T0-t0,T0],t0一般取10ms;若用tk表示第k个区间段t的变化范围,即[0.5t0(k-1),0.5t0(k+1)],对每个区间段上的D(t,τc)计算代价函数M(τc),则第k个区间段的代价函数Mkc):

<mrow><msub><mi>M</mi><mi>k</mi></msub><mrow><mo>(</mo><msub><mi>&tau;</mi><mi>c</mi></msub><mo>)</mo></mrow><mo>=</mo><mo>-</mo><mi>lg</mi><mo>&lsqb;</mo><mo>&Integral;</mo><msub><malignmark/><mi>&Omega;</mi></msub><msup><mrow><mo>(</mo><mfrac><mrow><mi>d</mi><mo>|</mo><mi>D</mi><mo>|</mo></mrow><mrow><mi>d</mi><mi>t</mi></mrow></mfrac><mo>)</mo></mrow><mn>2</mn></msup><mi>d</mi><mi>t</mi><mo>&rsqb;</mo><mo>+</mo><mi>lg</mi><mo>&lsqb;</mo><mo>&Integral;</mo><msub><malignmark/><mi>&Omega;</mi></msub><mo>|</mo><mi>D</mi><msup><mo>|</mo><mn>2</mn></msup><mi>d</mi><mi>t</mi><mo>&rsqb;</mo><mo>-</mo><mi>lg</mi><mo>&lsqb;</mo><mo>&Integral;</mo><msub><malignmark/><mi>&Omega;</mi></msub><msup><mrow><mo>(</mo><mfrac><mrow><mi>d</mi><mi> </mi><mi>arg</mi><mrow><mo>(</mo><mi>D</mi><mo>)</mo></mrow></mrow><mrow><mi>d</mi><mi>t</mi></mrow></mfrac><mo>)</mo></mrow><mn>2</mn></msup><mo>&rsqb;</mo><mi>d</mi><mi>t</mi><mo>+</mo><mn>2</mn><msub><mi>lg&tau;</mi><mi>c</mi></msub><mo>+</mo><mi>lg</mi><mi>&Omega;</mi><mrow><mo>(</mo><msub><mi>&tau;</mi><mi>c</mi></msub><mo>)</mo></mrow></mrow>

其中,上式中D表示的是第k个区间段的所有复信号D(t,τc),用Dk(t,τc)表示,表示AM成分幅值;lg[∫Ω|D|2dt]表示AM总能量;表示FM成分幅值;2lgτc表示FM基频的平方;lgΩ(τc)表示时域积分区间的归一化因子,且Ω=Ω(τc)是积分区间,也是τc的函数,且其范围为<mrow><mn>0.5</mn><msub><mi>t</mi><mn>0</mn></msub><mrow><mo>(</mo><mi>k</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>-</mo><msub><mi>&tau;</mi><mi>c</mi></msub><mrow><mo>(</mo><mi>&eta;</mi><msqrt><mrow><mo>(</mo><mn>10</mn><mi>l</mi><mi>n</mi><mn>10</mn><mo>)</mo><mo>/</mo><mi>&pi;</mi></mrow></msqrt><mo>+</mo><mn>0.25</mn><mo>)</mo></mrow><mo>&le;</mo><msub><mi>&Omega;</mi><mn>0</mn></msub><mo>&le;</mo><mn>0.5</mn><msub><mi>t</mi><mn>0</mn></msub><mrow><mo>(</mo><mi>k</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>+</mo><msub><mi>&tau;</mi><mi>c</mi></msub><mrow><mo>(</mo><mi>&eta;</mi><msqrt><mrow><mo>(</mo><mn>10</mn><mi>l</mi><mi>n</mi><mn>10</mn><mo>)</mo><mo>/</mo><mi>&pi;</mi></mrow></msqrt><mo>+</mo><mn>0.25</mn><mo>)</mo></mrow><mo>;</mo></mrow>

c、求代价函数M(τ0)在每个区间段取最大值时对应的τc集合τc(t),若第k个区间段Mkc)取最大值时对应的τc为则所有区间段的对应的所有区间段基频值f0(t)为

f0(t)=ω0(t)/2π

其中,瞬时频率Δt=1/fs;fs为语音信号采样频率;

d、利用求出的基频值来提取语音信号的光滑声道谱,其过程如下:

首先,求取语音信号每个区间段的加窗后的傅里叶变换且第k个区间段上的傅里叶变换为F(ω,tk)

<mrow><mi>F</mi><mrow><mo>(</mo><mi>&omega;</mi><mo>,</mo><msub><mi>t</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>=</mo><msubsup><mo>&Integral;</mo><mrow><mn>0.5</mn><msub><mi>t</mi><mn>0</mn></msub><mrow><mo>(</mo><mi>k</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow></mrow><mrow><mn>0.5</mn><msub><mi>t</mi><mn>0</mn></msub><mrow><mo>(</mo><mi>k</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow></mrow></msubsup><mi>s</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>k</mi></msub><mo>)</mo></mrow><mi>w</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>k</mi></msub><mo>)</mo></mrow><msup><mi>e</mi><mrow><mo>-</mo><msub><mi>j&omega;t</mi><mi>k</mi></msub></mrow></msup><msub><mi>dt</mi><mi>k</mi></msub></mrow>

其中,为窗函数;ω为角频率,ω=2πf,0≤f≤8Hz;

然后,采用内插函数去除傅里叶短时谱在时频域的周期性,得到语音信号STRAIGHT光滑声道谱S(ω,t):

<mrow><mi>S</mi><mrow><mo>(</mo><mi>&omega;</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><msqrt><mrow><msup><mi>g</mi><mrow><mo>-</mo><mn>1</mn></mrow></msup><mrow><mo>(</mo><mo>&Integral;</mo><msub><mo>&Integral;</mo><mi>D</mi></msub><msub><mi>h</mi><mi>t</mi></msub><mo>(</mo><mrow><mi>&lambda;</mi><mo>,</mo><mi>&tau;</mi></mrow><mo>)</mo><mi>g</mi><mo>(</mo><mrow><mo>|</mo><mi>F</mi><mrow><mo>(</mo><mrow><mi>&omega;</mi><mo>-</mo><mi>&lambda;</mi><mo>,</mo><mi>t</mi><mo>-</mo><mi>&lambda;</mi></mrow><mo>)</mo></mrow><msup><mo>|</mo><mn>2</mn></msup></mrow><mo>)</mo><mi>d</mi><mi>&lambda;</mi><mi>d</mi><mi>&tau;</mi><mo>)</mo></mrow></mrow></msqrt></mrow>

其中,为内插函数,是两个三角窗函数的乘积,τ0(t)=2π/ω0(t),-ω0(t)≤λ≤ω0(t),-τ0(t)≤τ≤τ0(t);函数g(·)定义了插值时所保留的特性。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410411869.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top