[发明专利]一种基于HMM的歌曲合成方法及装置在审
申请号: | 201710160104.2 | 申请日: | 2017-03-17 |
公开(公告)号: | CN106971703A | 公开(公告)日: | 2017-07-21 |
发明(设计)人: | 杨鸿武;赵娜;冯欢;甘振业 | 申请(专利权)人: | 西北师范大学 |
主分类号: | G10H1/00 | 分类号: | G10H1/00;G10L15/02;G10L15/06;G10L15/14;G10L19/02;G10L25/03;G10L25/48 |
代理公司: | 北京世誉鑫诚专利代理事务所(普通合伙)11368 | 代理人: | 孙国栋 |
地址: | 730070 甘肃省兰州*** | 国省代码: | 甘肃;62 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 hmm 歌曲 合成 方法 装置 | ||
技术领域
本发明涉及人机交互技术、文-语转换技术、语音合成技术等领域,具体涉及一种基于HMM的歌曲合成方法及装置。
背景技术
随着信息技术的不断创新和完善,许多人机交互方面的音乐多媒体应用也逐渐走入我们的日常生活,例如计算机点歌、谱曲、修饰歌声,以及手机上的听歌识曲等。如何使计算机更加人性化,能够像人类一样“唱歌”,也就是说,已知简谱和歌词,计算机就可以自动产生美妙、动听的歌声已经成为一种新的需求。随着多媒体技术在娱乐领域的飞速发展,同时也为这一技术提供了更为广阔的应用空间。
目前绝大多数音乐都是以数字格式来记录和传播的,譬如,WAV、MP3、MIDI、以及实时音乐广播等多种存储形式。和传统的音乐模式相比,数字音乐在制作、存储、发行等方面有着不可比拟的优势。通过计算机,创作者在谱曲的同时能够听到音乐作品的制作效果,对乐谱进行的任何修改操作都可以及时的反馈给创作者,不需要进行传统的排练、演奏、录制、编辑等一系列复杂的过程来处理音乐,极大的降低了音乐制作的周期和人力成本,同时也避免了作曲家在漫长的创作过程中失去偶然得到的创作灵感。
语音合成技术是人机交互领域的一个重要研究内容,是嵌入式研究领域的重要组成部分。现如今,歌声合成也逐步成为了一个热点话题。然而,在歌声合成技术出现之前,语音合成技术的发展已经相对成熟了。一些学者试图利用语音合成的方法来合成歌声,但是歌声和语音又存在一定程度的差异性。语音重在内容(当然也可以表达说话人的意向、情感),歌声重在旋律的演绎和起伏变化,这使得语音合成的方法不能够直接应用到歌声的合成当中。
在长期的国内外研究过程当中,歌声合成类似于语音合成技术,也已逐步形成了三种主流的合成方式:1.波形拼接式合成;2.参数化式合成;3.语音修改式合成。其中拼接合成和参数化式合成都是基于语料库的,合成音质不高,而语音修改方式比较灵活,是根据旋律信息来修改语音信号的声学参数进而达到歌声的合成。在国内外有提出了歌词到歌声实时转换的个性化语音合成。根据歌曲的乐谱信息立即产生歌声,它可以接收一首歌歌词的连续语音。该系统在录入与歌词相对应的语音后用Viterbi算法在连续的语音合成单元合成歌声,通过基音同步波形叠加(Pitch-Synchronous Overlap-Add,PSOLA)方法来实现音高、时长、能量和频谱的实时转换,并合成歌声。由于该系统没有考虑语音和歌声在音高和时长等声学方面的差异性,致使合成的效果不理想。也有在此基础上,提出了一个大语料库的歌词到歌声转换,该系统在自然度和音质等方面都达到了比较好的结果。该系统设计了3个普通话的语料库,用Viterbi算法来确定各个合成单元的最优组合。这种方法的缺陷是:制作语料库花费大量的时间以及人的精力。
因此,本领域的技术员致力于开发一种新型的面向有音乐处理需求者的基于HMM的个性化歌曲合成的实现方法和装置。
发明内容
有鉴于现有技术的上述缺陷,本发明要解决背景技术中提出的中文歌声的合成研究较少,合成音质不高,操作耗时耗力等问题,提供了一种面向有音乐处理需求者的基于HMM的个性化歌曲合成的实现方法和装置。
为解决上述技术问题,本发明提供的技术方案如下:
一种基于HMM的歌曲合成方法,包括以下步骤:
A、分析语音和歌声在声学特征的差异性,建立歌声的旋律控制模型;
B、建立面向歌曲合成的基于HMM的说话人相关的声学模型;
C、利用基于HMM的语音合成系统合成出歌声。
进一步的,所述步骤A中所述分析语音和歌声在声学特征的差异性的具体步骤如下:
a、运用时域分析法和频域分析法对语音信号进行谱分析,并将语音信号与歌声信号进行基频的对比分析;
b、利用MIDI技术从MIDI系统中提取出所需要的乐谱信息;
c、通过读取MIDI文件中提取的乐谱的旋律信息,分析其乐谱文件的结构特征,进而获得音乐参数信息,所述音乐参数信息包括通道标号、音符音高、键的速度、音符起始时间和音符持续时间。
进一步的,所述步骤A中所述歌声的旋律控制模型包括基频控制模型和时长控制模型;利用基频控制模型将乐谱中的离散音高转换为连续的基频曲线,并利用时长控制模型获得歌唱音符的发音时长。
进一步的,所述步骤B中所述建立面向歌曲合成的基于HMM的说话人相关的声学模型有如下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北师范大学,未经西北师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710160104.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于电钢琴支撑的Z形支架装置
- 下一篇:一种音频处理方法及移动终端