[发明专利]声音合成装置有效
申请号: | 200680016873.5 | 申请日: | 2006-05-02 |
公开(公告)号: | CN101176146A | 公开(公告)日: | 2008-05-07 |
发明(设计)人: | 加藤弓子;釜井孝浩 | 申请(专利权)人: | 松下电器产业株式会社 |
主分类号: | G10L13/08 | 分类号: | G10L13/08 |
代理公司: | 永新专利商标代理有限公司 | 代理人: | 胡建新 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 声音 合成 装置 | ||
技术领域
本发明涉及一种声音合成装置,该声音合成装置可以生成能够表现发音器官的紧张以及松驰、情感、声音的表现力或说话风格的声音。
背景技术
以往,在能够表现情感等的声音合成装置或方法中提出的技术是:预先合成标准的或无表现力的声音,之后选择具有特殊矢量的声音并连接,所述具有特殊矢量的声音是指类似于上述合成的声音且与带有情感等表现力的声音相似的声音(例如,参照专利文献1)。
并且,还提出了这样的技术,即在将标准的或无表现力的声音合成为带有情感等表现力的声音的情况下,预先使变换合成参数的函数利用神经网络来学习,并根据学习后的变换函数,来变换合成标准的或无表现力的声音的参数串的参数(例如,参照专利文献2)。
而且,还提出了这样的技术,即对频率特性进行变形并变换音质,所述频率特性是指合成标准的或无表现力的声音的参数串的频率特性(例如,参照专利文献3)。
而且,还提出了这样的技术,即为了控制情感的程度,而利用根据情感的程度而变化率不同的参数变换函数,来变换参数,或为了混合多个情感,而对表现不同的两种合成参数串进行插值,从而生成参数串(例如,参照专利文献4)。
除此之外,通过含有各情感表现的自然声音,来统计学习各情感所分别对应的根据隐藏式马可夫模型的声音生成模型,并建立模型间的变换公式,将标准声音或无表现力的声音变换为表现情感的声音(例如,参照非专利文献1)。
图1示出了专利文献4所公开的以往的声音合成装置。
图1中的情感输入接口部109将输入的情感控制信息变换为参数变换信息,并输出到情感控制部108,所述参数变换信息是指图2所示的各个情感比率所经过的时间的变化。情感控制部108按照图3所示的预先规定的变换规则,将参数变换信息变换为参考参数,并控制韵律控制部103以及参数控制部104的工作。韵律控制部103根据语言处理部101所生成的音韵串和语言信息,生成无情感韵律模式之后,并按照在情感控制部108生成的参考参数,将生成的无情感韵律模式变换为带有情感的韵律模式。而且,参数控制部104利用上述的参考参数,将预先生成的谱或说话速度等无情感参数变换为情感参数,并将情感附加到合成声音中。
专利文献1 日本特开2004-279436号公报(第8-10页、图5)
专利文献2 日本特开平7-72900号公报(第6-7页、图1)
专利文献3 日本特开2002-268699号公报(第9-10页、图9)
专利文献4 日本特开2003-233388号公报(第8-10页、图1、图3、图6)
非专利文献1 田村正统、益子贵史、德田惠一以及小林隆夫、“HMM音声合成に基づく声質变换にぉける話者適応手法の検討(在基于HMM声音合成的音质变换中适应说话人的方法之研究)”音響学会講演論文集(音响学会讲演论文集),1巻,PP.319-320,1998
然而,在通常的构成中是将各个情感按照图3所示的预先规定的一定的变换规则来进行参数变换的,并根据各个音的参数的变化率来表现情感的强度。为此,出现的课题是:在自然说话中可以见到的,即使是相同的情感种类、情感强度,也不能再现诸如一部分是假声,一部分是用力说话等音质的变化;以及通过使同一个情感或表现力的说话中的音质发生变化,来实现在表现情感或表现力的声音中经常见到的丰富的声音表现是困难的。
发明内容
本发明为了解决所述以往的课题,目的在于提供一种声音合成装置,通过使同一个情感或表现力的话语中的音质发生变化,从而可以实现在表现情感或表现力的声音中经常可以见到的丰富的声音表现。
本发明的某个局面所涉及的声音合成装置包括:说话状态获得单元,获得被声音合成的声音波形的说话状态;韵律生成单元,生成韵律,该韵律是以获得的所述说话状态,说处经过语言处理的文本时的韵律;特征性音色选择单元,根据所述说话状态来选择观察到的特征性音色,且所述特征性音色是以获得的所述说话状态,说出所述文本时观察到的;说话位置决定单元,根据所述文本的音韵串、所述特征性音色、以及所述韵律,以构成所述音韵串的各个音韵为单位,判断是否以所述特征性音色来说话,并决定音韵,该音韵位于以所述特征性音色来说话的说话位置;以及波形合成单元,根据所述音韵串、所述韵律以及所述说话位置来生成声音波形,应用该声音波形以所述说话状态说出所述文本且该文本以特征性音色被说出,所述特征性音色在所述说话位置决定单元所决定的说话位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于松下电器产业株式会社,未经松下电器产业株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200680016873.5/2.html,转载请声明来源钻瓜专利网。