[发明专利]一种将语音转换为旋律的方法和装置无效

申请号：	201110295667.5	申请日：	2011-09-30
公开（公告）号：	CN103035235A	公开（公告）日：	2013-04-10
发明（设计）人：	杨晨;蔡莲红;周卫	申请（专利权）人：	西门子公司
主分类号：	G10L13/08	分类号：	G10L13/08;G10H7/00
代理公司：	北京康信知识产权代理有限责任公司 11240	代理人：	李慧
地址：	德国***	国省代码：	德国;DE
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音转换旋律方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及语音处理技术，特别涉及一种将语音转换为旋律的方法和装置。

背景技术

旋律是构成音乐的最基本要素，能够最有效地表现音乐以及人类情感。旋律是具有各种音调和时长的音符的组合，可以理解为由具有不同音调和时长的音符排列而成。通常，各个音符通过节拍排序，以向该音符序列提供音乐意义。

音乐家或者歌唱家对音乐具有专业的掌控力和表现力，能够很好地配合旋律将自己的歌声展现出来，而对于普通人来说，通常具有一定难度。常常希望通过输入一段语音就能够实时转换为具有自身声音特质的旋律，而现有技术中尚不能实现该技术。

发明内容

有鉴于此，本发明提供了一种将语音转换为旋律的方法和装置，能够将用户输入的语音数据转换为具有用户声音特质的旋律。

本发明的技术方案如下：

一种将语音转换为旋律的方法，该方法包括：获取语音数据和乐谱信息，所述语音数据由用户输入，所述乐谱信息包括：歌词信息，音符信息以及两者的对应关系；调整语音数据中各音节的时长，使各音节的时长与乐谱信息中对应的歌词时长对齐，并按照乐谱信息中各音符的音调，调整语音数据的语音基频点，使各语音基频点与乐谱信息中对应音符的音调对齐；结合调整音调后的语音基频点和调整时长后的各音节形成旋律数据。

调整语音数据中各音节的时长，使各音节的时长与乐谱信息中对应的歌词时长对齐具体包括：提取输入的语音数据中每一帧的能量和过零率信息；根据每一帧的能量和过零率信息将语音数据划分为语音段和静音段；按照所述乐谱信息中的歌词信息将各语音段切分为音节；调整语音数据中各音节的时长使得其与乐谱信息中对应的歌词时长对齐。

其中，根据每一帧的能量和过零率信息将语音数据划分为语音段和静音段包括：根据每一帧的能量和过零率信息，将每一帧标识为语音帧或静音帧；将相邻的语音帧构成语音段，将相邻的静音帧构成静音段。

其中，按照所述乐谱信息中的歌词信息将各语音段切分为音节包括：确定乐谱信息的歌词中每个句子对应的语音段；确定每个句子所包含各个短语对应的语音段；以及对每个短语对应的语音段进行语音切分，得到切分后的音节。

其中，调整语音数据中各音节的时长使得其与乐谱信息中对应的歌词时长对齐包括：在对一个包含声母和韵母的音节进行时长调节时，如果需要对该音节的时长进行拉长，则保持声母时长不变，只拉长韵母的时长；如果需要对该音节的时长进行缩短，则将声母和韵母同时缩短。

或者调整语音数据中各音节的时长使得其与乐谱信息中对应的歌词时长对齐包括：当一个音节的前后均为静音段时，使该音节声母的时长占整个音节时长的16.2％；当该音节的前面为静音段，后面不是静音段时，使该音节声母时长占整个音节时长的27.6％；当该音节的前面不是静音段，后面是静音段时，使该音节声母时长占整个音节时长的24.8％；以及当该音节的前后均不是静音段时，使该音节声母时长占整个音节时长的32.9％。

具体地，按照乐谱信息中各音符的音调，调整语音数据的语音基频，使各语音基频点与对应音符的音调对齐具体包括：提取输入的语音数据的语音基频信息，所述语音音频信息包括：语音数据的基频均值以及语音数据的各个语音基频点；基于语音数据的基频均值和乐谱信息中所有音符的基频均值确定将所述语音数据转换成的旋律的调号；以确定的调号为基准，调整语音数据的各语音基频点的频率与乐谱信息中各音符的音调对齐。

另外，基于语音数据的基频均值和乐谱信息中所有音符的基频均值确定旋律的调号包括：确定语音数据的基频均值F0_aver和乐谱信息中所有音频的基频均值P_aver；如果F0_aver＞P_aver，将语音数据的基频均值降K-n个半音作为旋律的调号，其中，K为F0_aver比P_aver高出的半音数目，n为实验值，可以取n为int(K/7)，int表示取整；如果F0_aver＜P_aver，将语音数据的基频均值升K-n个半音作为旋律的调号，其中，K为F0_aver比P_aver低的半音数目，n为实验值，可以取n为int(K/7)，int表示取整。

更优地，在确定旋律的调号之后进一步包括：将语音基频点进行分段，其中处于不同分段的两个相邻语音基频点之间的频率差值大于设定分段阈值；确定长度小于预设的野点长度阈值的分段为野点分段；对野点分段中语音基频点的频率进行sinc插值处理。

或者，在调整语音数据的语音基频之后进一步包括：在经过步骤B调整音调后的语音数据中，将每个音符中包含的后m％的语音基频点和与后一个音符包含的前m％的语音基频点进行sinc插值处理；其中，m％为设定的实验值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西门子公司，未经西门子公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201110295667.5/2.html，转载请声明来源钻瓜专利网。

上一篇：一种电力载波高速多载波复用方法及系统
下一篇：一种具有增肥效果的新型裤子

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种将语音转换为旋律的方法和装置无效

专利文献下载