[发明专利]一种语音变速的方法有效
申请号: | 200910194054.5 | 申请日: | 2009-11-20 |
公开(公告)号: | CN101719371A | 公开(公告)日: | 2010-06-02 |
发明(设计)人: | 李军;胡胜发 | 申请(专利权)人: | 安凯(广州)微电子技术有限公司 |
主分类号: | G10L21/00 | 分类号: | G10L21/00;G10L21/02;G10L21/04 |
代理公司: | 广州知友专利商标代理有限公司 44104 | 代理人: | 宣国华 |
地址: | 510663 广东省广州市高新技术开发区科*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 变速 方法 | ||
技术背景
本发明涉及一种语音变速的方法,特别设计一种以帧为处理单位的语音变速 的方法。
背景技术
语音变速,或称为语音压扩,是指语音回放时语速变化,包括快放和慢放; 就像我们说话一样,可以说快些,也可以说慢些;快放,就能更快更省时地听完 所有内容;慢放,就能听得更清晰,一字不漏。其实,单纯的语音变速,可以通 过改变播放采样率来实现;但通过这种方法实现变速,会严重变调,回放的效果 已经完全不是原来的声音,如男声变得像女声,或女声听起来像男声。本文所描 述的语音变速,指的是变速不变调。语音变速技术,可以满足学习外语、报告记 录、语音研究及公安侦察等需要。
在语音信号处理领域,语音变速很早就被人们研究。目前的实现方法,有硬 件实现和软件处理办法。
硬件实现办法很多,例如,用以由所输入的声音信号分别分离成原音成分和 声音特性的音调检测电路;用以在由上述音调检测电路分离出的原音成分和声音 特性中,按播放原音成分的速度进行消除和添加来调节声音信号长度的音调调节 部件;用以合成用上述音调调制部件调制的原音成分和声音特性,输出已变速的 声音信号的声音合成电路;用由外部输入的控制信号控制上述各构成部件的主控 制器。硬件实现办法应该能取得不错的效果,但涉及成本问题。
软件实现办法较多,例如专利号为200610164672的中国专利:语音变速的 方法提出的方法包含下列步骤:接收原始语音信号;计算出该原始语音信号的基 本周期;依据该基本周期定义搜寻范围;在该原始语音信号的每个该搜寻范围内 寻找最大值;依据该最大值将该原始语音信号划分为多个语音区段;依据变速指 令对该原始语音信号的每个该语音区段进行变速运算,而取得变速语音信号;输 出该变速语音信号。上述方法的好处是将语音信号以最细小的基本周期单位进行 后续的变速处理,不足之处是算法较复杂,软件实现时代码比较繁琐。
硬件实现语音变速,效果不错,但缺点是增加了成本,如果是需要量产的产 品,会因增加语音变速带来不菲的支出;同时,因为增加硬件,很可能会增加产 品尺寸,影响产品外观设计。
软件实现办法很多,例如某欧洲国家提供的商业语音变速方案,也有一些开 源组织实现的变速方案。但目前普遍存在一些缺陷,就是处理后音质明显比原始 音源差很多,有颤音,甚至引入轻微不明噪音,尤其慢放效果难以满足用户的需 要。另外还存在的一个问题是,变速的级数或倍数有限,通常看到的一些产品中, 慢放最慢是原速的0.65倍,快放最快是原速的1.5倍,或者即便能达到慢放0.5, 快放2倍,但此时的效果已经令人无法忍受。
发明内容
本发明的目的是提出一种语音变速的处理方法,能根据用户的需要进行相应 的语音变速,而且变速后的音质效果令用户满意,不产生颤音。
上述发明目的可通过以下的技术措施来实现,一种语音变速的方法,包 括以下步骤:
(1)获取待处理的原始语音信号,以帧为语音单位进行处理;
(2)在待处理的原始语音信号帧处插入一段语音信号,实现慢放效果;在待处 理的原始语音信号帧之后删除一段语音信号,实现快放效果;
(3)上述实现慢放效果时插入一段语音信号的过程为:按播放时间顺序,在待 处理原始语音信号帧之前的语音信号中进行基音搜索,采用自相关法获取 待处理原始语音信号帧的最大自相关帧;从该最大自相关帧之后到待处理 原始语音信号帧为止的语音信号内容即为慢放插入的一段语音信号;
(4)上述实现快放效果时删除一段语音信号的过程为:按播放时间顺序,在待 处理原始语音信号帧之后的语音信号中进行基音搜索,开始搜索位置由快 放变速级数确定,采用自相关法获取待处理原始语音信号帧的最大自相关 帧;从待处理原始语音信号帧之后到该最大自相关帧为止的语音信号内容 即为快放删除的一段语音信号。
实现快放或慢放时,在原始语音信号帧的插入或删除处,用一帧经过叠加处 理的语音信号进行平滑过渡,缓解或消除语音在遭切割肢解处引起的噪音。叠加 处理的具体过程为:在待处理原始语音信号帧附近的语音信号中进行基音搜索, 采用自相关法获取待处理原始语音信号帧的最大自相关帧;由待处理原始语音信 号帧和该最大自相关帧两段等长的语音信号,分别经过汉宁窗加窗处理后,再叠 加。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安凯(广州)微电子技术有限公司,未经安凯(广州)微电子技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910194054.5/2.html,转载请声明来源钻瓜专利网。