[发明专利]一种基于K‑SVD的人工语音带宽扩展方法及装置有效

申请号：	201410411869.5	申请日：	2014-08-18
公开（公告）号：	CN104217730B	公开（公告）日：	2017-07-21
发明（设计）人：	陈喆;殷福亮;隋经纬	申请（专利权）人：	大连理工大学
主分类号：	G10L21/038	分类号：	G10L21/038;G10L19/107;G10L25/27
代理公司：	大连东方专利代理有限责任公司21212	代理人：	姜玉蓉,李洪福
地址：	116024 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 svd 人工语音带宽扩展方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于K-SVD的人工语音带宽扩展方法，其包括以下步骤：

1)在带宽扩展的发送端，对源宽带语音信号进行训练，得到宽带语音字典、窄带语音字典和窄带语音稀疏矩阵，其包括以下步骤：

①对源宽带语音信号进行低通滤波处理，得到对应的窄带语音信号；

②提取生成的窄带语音信号和源宽带语音信号各自对应的STRAIGHT光滑声道谱；

③采用K-SVD算法对所得的窄带语音STRAIGHT光滑声道谱进行训练，得到窄带语音字典和窄带语音稀疏矩阵；

④采用K-SVD算法对宽带语音STRAIGHT光滑声道谱进行训练，得到宽带语音字典，且训练过程中所用稀疏矩阵为窄带语音稀疏矩阵，以确保宽带语音字典与窄带语音字典之间的稀疏相关性；

2)在带宽扩展的接收端，采用宽带语音字典和窄带语音字典对源窄带语音信号进行带宽扩展，得到扩展出的最终宽带语音信号，其包括以下步骤：

①将源窄带语音信号进行插值和低通滤波处理，以提高源窄带语音信号的采样频率，而有效宽带不变，得到最终宽带语音信号的低频分量；

②提取经过处理的源窄带语音信号的STRAIGHT光滑声道谱；

③采用K-SVD算法对所得的源窄带语音STRAIGHT光滑声道谱进行训练，所用字典为窄带语音字典，并采用OMP稀疏编码算法得到待扩展的源窄带语音稀疏矩阵；

④将待扩展的源窄带语音稀疏矩阵和宽带语音字典相乘，得到扩展后宽带语音的STRAIGHT光滑声道谱，且利用其反推得到扩展后的初始宽带语音信号；

⑤对扩展后的初始宽带语音信号进行高通滤波处理，得到最终宽带语音信号的高频分量；

⑥将宽带语音信号的高频分量与经过低通滤波后的低频分量相叠加，得到扩展出的最终宽带语音信号。

2.如权利要求1所述的一种基于K-SVD的人工语音带宽扩展方法，其特征在于：所述步骤1)的步骤②中STRAIGHT光滑声道谱的提取过程如下：

a、将语音信号进行小波分解，得到一系列经过Gabor滤波器滤波的复信号D(t,τ_c)：

$<mrow><mi>D</mi><mrow><mo>(</mo><mi>t</mi><mo>,</mo><msub><mi>τ</mi><mi>c</mi></msub><mo>)</mo></mrow><mo>=</mo><mo>|</mo><msub><mi>τ</mi><mi>c</mi></msub><msup><mo>|</mo><mrow><mo>-</mo><mn>0.5</mn></mrow></msup><msub><mo>&Integral;</mo><msub><mi>Ω</mi><mn>0</mn></msub></msub><mi>s</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><msub><mover><mi>g</mi><mo>&OverBar;</mo></mover><mrow><mi>A</mi><mi>G</mi></mrow></msub><mrow><mo>(</mo><mfrac><mrow><mi>t</mi><mo>-</mo><mi>u</mi></mrow><msub><mi>τ</mi><mi>c</mi></msub></mfrac><mo>)</mo></mrow><mi>d</mi><mi>u</mi></mrow>$

其中，t为语音信号上的时间平移变量，且0≤t≤T₀，T₀为语音信号时长；τ_c为g_AG(t)的伸缩因子，表示滤波时对应的滤波通道且0≤τ_c≤t₀，t₀一般取10ms；u代表积分变量，取值范围为积分区间Ω₀，即s(t)为0到t时间段的语音输入信号；g_AG(t)为分析小波，由复合的Gabor滤波器得到，g_AG(t)＝g(t-1/4)-g(t+1/4)，其中η为Gabor滤波器的频率分辨率，根据Gabor滤波器特性取值，通常η>1；

b、把复信号D(t,τ_c)按时间段分为多个重叠的区间段，即把t分为[0,t₀]，[0.5t₀,1.5t₀]，...，[T₀-t₀,T₀]，t₀一般取10ms；若用t_k表示第k个区间段t的变化范围，即[0.5t₀(k-1),0.5t₀(k+1)]，对每个区间段上的D(t,τ_c)计算代价函数M(τ_c)，则第k个区间段的代价函数M_k(τ_c)：

$<mrow><msub><mi>M</mi><mi>k</mi></msub><mrow><mo>(</mo><msub><mi>τ</mi><mi>c</mi></msub><mo>)</mo></mrow><mo>=</mo><mo>-</mo><mi>lg</mi><mo>[</mo><mo>&Integral;</mo><msub><malignmark/><mi>Ω</mi></msub><msup><mrow><mo>(</mo><mfrac><mrow><mi>d</mi><mo>|</mo><mi>D</mi><mo>|</mo></mrow><mrow><mi>d</mi><mi>t</mi></mrow></mfrac><mo>)</mo></mrow><mn>2</mn></msup><mi>d</mi><mi>t</mi><mo>]</mo><mo>+</mo><mi>lg</mi><mo>[</mo><mo>&Integral;</mo><msub><malignmark/><mi>Ω</mi></msub><mo>|</mo><mi>D</mi><msup><mo>|</mo><mn>2</mn></msup><mi>d</mi><mi>t</mi><mo>]</mo><mo>-</mo><mi>lg</mi><mo>[</mo><mo>&Integral;</mo><msub><malignmark/><mi>Ω</mi></msub><msup><mrow><mo>(</mo><mfrac><mrow><mi>d</mi><mi> </mi><mi>arg</mi><mrow><mo>(</mo><mi>D</mi><mo>)</mo></mrow></mrow><mrow><mi>d</mi><mi>t</mi></mrow></mfrac><mo>)</mo></mrow><mn>2</mn></msup><mo>]</mo><mi>d</mi><mi>t</mi><mo>+</mo><mn>2</mn><msub><mi>lgτ</mi><mi>c</mi></msub><mo>+</mo><mi>lg</mi><mi>Ω</mi><mrow><mo>(</mo><msub><mi>τ</mi><mi>c</mi></msub><mo>)</mo></mrow></mrow>$

其中，上式中D表示的是第k个区间段的所有复信号D(t,τ_c)，用D_k(t,τ_c)表示，表示AM成分幅值；lg[∫_Ω|D|²dt]表示AM总能量；表示FM成分幅值；2lgτ_c表示FM基频的平方；lgΩ(τ_c)表示时域积分区间的归一化因子，且Ω＝Ω(τ_c)是积分区间，也是τ_c的函数，且其范围为 $<mrow><mn>0.5</mn><msub><mi>t</mi><mn>0</mn></msub><mrow><mo>(</mo><mi>k</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>-</mo><msub><mi>τ</mi><mi>c</mi></msub><mrow><mo>(</mo><mi>η</mi><msqrt><mrow><mo>(</mo><mn>10</mn><mi>l</mi><mi>n</mi><mn>10</mn><mo>)</mo><mo>/</mo><mi>π</mi></mrow></msqrt><mo>+</mo><mn>0.25</mn><mo>)</mo></mrow><mo>≤</mo><msub><mi>Ω</mi><mn>0</mn></msub><mo>≤</mo><mn>0.5</mn><msub><mi>t</mi><mn>0</mn></msub><mrow><mo>(</mo><mi>k</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>+</mo><msub><mi>τ</mi><mi>c</mi></msub><mrow><mo>(</mo><mi>η</mi><msqrt><mrow><mo>(</mo><mn>10</mn><mi>l</mi><mi>n</mi><mn>10</mn><mo>)</mo><mo>/</mo><mi>π</mi></mrow></msqrt><mo>+</mo><mn>0.25</mn><mo>)</mo></mrow><mo>;</mo></mrow>$

c、求代价函数M(τ₀)在每个区间段取最大值时对应的τ_c集合τ_c(t)，若第k个区间段M_k(τ_c)取最大值时对应的τ_c为则所有区间段的对应的所有区间段基频值f₀(t)为

f₀(t)＝ω₀(t)/2π

其中，瞬时频率Δt＝1/f_s；f_s为语音信号采样频率；

d、利用求出的基频值来提取语音信号的光滑声道谱，其过程如下：

首先，求取语音信号每个区间段的加窗后的傅里叶变换且第k个区间段上的傅里叶变换为F(ω，t_k)

$<mrow><mi>F</mi><mrow><mo>(</mo><mi>ω</mi><mo>,</mo><msub><mi>t</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>=</mo><msubsup><mo>&Integral;</mo><mrow><mn>0.5</mn><msub><mi>t</mi><mn>0</mn></msub><mrow><mo>(</mo><mi>k</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow></mrow><mrow><mn>0.5</mn><msub><mi>t</mi><mn>0</mn></msub><mrow><mo>(</mo><mi>k</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow></mrow></msubsup><mi>s</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>k</mi></msub><mo>)</mo></mrow><mi>w</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>k</mi></msub><mo>)</mo></mrow><msup><mi>e</mi><mrow><mo>-</mo><msub><mi>jωt</mi><mi>k</mi></msub></mrow></msup><msub><mi>dt</mi><mi>k</mi></msub></mrow>$

其中，为窗函数；ω为角频率，ω＝2πf,0≤f≤8Hz；

然后，采用内插函数去除傅里叶短时谱在时频域的周期性，得到语音信号STRAIGHT光滑声道谱S(ω，t)：

$<mrow><mi>S</mi><mrow><mo>(</mo><mi>ω</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><msqrt><mrow><msup><mi>g</mi><mrow><mo>-</mo><mn>1</mn></mrow></msup><mrow><mo>(</mo><mo>&Integral;</mo><msub><mo>&Integral;</mo><mi>D</mi></msub><msub><mi>h</mi><mi>t</mi></msub><mo>(</mo><mrow><mi>λ</mi><mo>,</mo><mi>τ</mi></mrow><mo>)</mo><mi>g</mi><mo>(</mo><mrow><mo>|</mo><mi>F</mi><mrow><mo>(</mo><mrow><mi>ω</mi><mo>-</mo><mi>λ</mi><mo>,</mo><mi>t</mi><mo>-</mo><mi>λ</mi></mrow><mo>)</mo></mrow><msup><mo>|</mo><mn>2</mn></msup></mrow><mo>)</mo><mi>d</mi><mi>λ</mi><mi>d</mi><mi>τ</mi><mo>)</mo></mrow></mrow></msqrt></mrow>$

其中，为内插函数，是两个三角窗函数的乘积，τ₀(t)＝2π/ω₀(t)，-ω₀(t)≤λ≤ω₀(t),-τ₀(t)≤τ≤τ₀(t)；函数g(·)定义了插值时所保留的特性。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于大连理工大学，未经大连理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201410411869.5/1.html，转载请声明来源钻瓜专利网。

上一篇：车辆减振装置及使用该减振装置的车辆
下一篇：可自由组合按键的电子琴及实现自由组合的方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于K‑SVD的人工语音带宽扩展方法及装置有效

专利文献下载