[发明专利]基于短时连续非负矩阵分解的语音时长调整方法有效
申请号: | 201210335362.7 | 申请日: | 2012-09-11 |
公开(公告)号: | CN102855884A | 公开(公告)日: | 2013-01-02 |
发明(设计)人: | 张雄伟;吴海佳;黄建军;陈卫卫;赵改华;李铁南 | 申请(专利权)人: | 中国人民解放军理工大学 |
主分类号: | G10L21/04 | 分类号: | G10L21/04 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 唐代盛 |
地址: | 210007 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 连续 矩阵 分解 语音 调整 方法 | ||
技术领域
本发明属于语音信号处理技术领域,特别是一种基于短时连续非负矩阵分解的语音时长调整方法。
背景技术
语音时长调整技术可以在改变语音播放速度的同时保持语音的基音周期、共振峰结构等感知特征,使处理后的语音就像说话人主动改变语速一样。据调查,人说话的最快语速大约是每分钟110到180个单词,而人耳能够听懂的最大语速是它的2到3倍(1.M.R.Portnoff.Time-scale modification of speech based on short-time fourier analysis[D].PhD Thesis,MIT,1978)。因此,如果使用语音时长调整技术按需调整语音资料的播放速度,则可最大限度的发挥人耳的听觉潜力,使人能够像浏览报纸一样“浏览”语音资料。
语音时长调整技术在音频信号处理中有着重要意义,例如:在语音识别、说话人识别中,可通过语音时长调整实现识别模版和参考模版的时间对齐;语音时长调整技术在广播电台对时间的要求方面也发挥了重要作用,如电视节目可利用语音时长调整技术达到视音频流的同步;语音时长调整技术也可用于语言、歌曲学习播放等,大大提高了学习效率;另外,通过语音时长调整还可以改善拥塞网络中的语音听觉效果(2.G.Hakki,G.Saadettin.Adaptive time scale modification of speech for graceful degrading voice quality in congested networks for VoIP applications[J].Signal Processing,2006,86(1):127-139)。
在过去的研究中,语音时长调整主要有频域和时域两类方法。其中,时域方法简单直观、易于实现,因此得到了较快发展。早在1984年,Griffin和Lim提出了重叠相加法(OLA)(3.D.W.Griffin,J.S.Lim.Signal estimation from modified short-time fourier transforms[J].IEEE Trans.On ASS P,1984,32(2):236-243),利用窗函数把语音信号分割成一系列相互重叠的帧,通过改变重叠部分长度来实现语音信号的压缩或扩展。但OLA算法存在相位不连续的问题。为了克服该问题,Roucos和Wilgus提出了同步叠加方法(SOLA)(4.S.Roucos,A.Wilgus.High quality time-scale modification for speech[C].IEEE International Conference onAcoustics,Speech,and Signal Processing,Tampa,FL,USA,1985,10:493-496),Verhelst和Roelands提出了波形相似叠加法(WSOLA)(5.W.Verhelst,M.Roelands.An overlap-add technique based on waveform similarity(WSOLA)for high quality time-scale modification of speech[C].IEEE International Conference on Acoustics,Speech,and Signal Processing,Minneapolis,MN,USA,1993:554-557)。这两种算法在OLA算法的基础上引入一个偏移量来克服相位不连续的问题,不同的是前者在分帧叠加过程中引入偏移量,而后者在分帧提取过程中引入偏移量。然而,由于语音中的浊音段具有较强基音周期,分帧叠加的方法可能会破坏浊音段的基音结构,导致扩展后的语音存在机器音,而且随着扩展尺度的增大,机器音快速增强。为了克服这一问题,Moulines和Charpentier提出了时域基音同步叠加算法(TDPSOLA)(6.H.Valbret,E.Moulines,J.P.Tubach.Voice transformation using PSOLA technique[J].Speech Communication,1992,11(2-3):175-187),该算法以基音周期为单位进行语音段的插入、删除和修改,达到在不破坏基音结构的前提下调整语音时长的目的。然而,由于该方法在对语音时长进行扩展时所操作的单位为固定的基音周期长度,只有当调整尺度为整数个基音周期时,才能获得较好的语音质量,对于连续时长调整,存在不稳定的问题。另外,TDPSOLA算法依赖于精确的基音周期标注,而这一点也是难以做到的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军理工大学,未经中国人民解放军理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210335362.7/2.html,转载请声明来源钻瓜专利网。