[发明专利]信号处理设备和方法、训练设备和方法以及程序在审
申请号: | 201880078782.7 | 申请日: | 2018-11-28 |
公开(公告)号: | CN111465982A | 公开(公告)日: | 2020-07-28 |
发明(设计)人: | 高桥直也 | 申请(专利权)人: | 索尼公司 |
主分类号: | G10L21/007 | 分类号: | G10L21/007;G10L21/028 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 余刚 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信号 处理 设备 方法 训练 以及 程序 | ||
本技术涉及一种能够更容易地转换语音性质的信号处理装置和方法、学习装置和方法以及程序。该信号处理装置设置有:语音性质转换单元,基于语音性质转换器参数将来自输入声源的期望声音的声学数据转换为表示与输入声源的语音性质不同的目标声源的语音性质的声学数据,该语音性质转换器参数通过使用一个或多个声源中的每一个声源的声学数据作为学习数据进行学习而获得,该声学数据不同于并行数据或纯净数据。本技术可以应用于语音性质转换装置。
技术领域
本技术涉及一种信号处理设备和方法、训练设备和方法以及程序,并且更具体地,涉及一种可以更容易地执行语音质量转换的信号处理设备和方法、训练设备和方法、以及程序。
背景技术
近年来,对将一个说话者的语音质量转换为另一说话者的语音质量的语音质量转换技术的需求越来越大。
例如,在广泛应用于智能手机、网络说话者、智能耳机等的语音代理中,以通过语音合成的预定的语音质量执行响应或大声朗读。另一方面,存在为了添加消息的个性而利用家人或朋友的语音质量大声朗读消息的需求,或者存在利用喜爱的配音演员、演员、歌手等的声音做出响应的需求。
此外,在音乐领域,存在基于人声合成的歌曲和表达方法,在该方法中将大幅改变原歌手的语音质量的效果器应用于歌唱声,但是诸如“接近歌手A的语音质量”的直观的剪辑方法尚未付诸实践。而且,也存在将歌曲制作为仅包括乐器声音的乐器曲调以使它作为背景音乐来欣赏的需求。
因此,已提出了一种用于转换输入语音的语音质量的技术。
例如,作为这样的技术,已提出了一种语音质量转换设备,该语音质量转换设备可以通过仅提供目标说话者的元音发音的声学数据作为训练数据,来将输入的声学数据转换为目标说话者的声学数据(例如,参见专利文献1)。
此外,例如,已提出了一种语音质量转换方法,该方法通过语音识别估计元音段而不需要输入指示元音段的元音段信息(例如,参见非专利文献1)。
现有技术文献
专利文献
专利文献1:WO2008/142836 A1
非专利文献
非专利文献1:A KL Divergence and DNN-based Approach to voice qualityconversion without Parallel Training Sentences,Interspeech2016
发明内容
本发明要解决的问题
然而,上述技术还不能够容易地执行语音质量转换。
例如,为了设计现有的语音质量转换器,需要作为语音转换源的输入说话者和作为转换目的地的目标说话者说出相同内容的并行数据。这是因为针对每一个音素获得了输入说话者和目标说话者之间的对应关系,并且对语音质量的差异而不是音素的差异进行建模。
因此,为了获得语音质量转换器,需要由目标说话者说出具有预定内容的语音的声学数据。在许多情形下,难以针对任意的说话者获得这样的声学数据。
根据上述专利文献1中描述的技术,即使不存在并行数据的情况下,如果目标说话者的元音发音的声学数据作为训练数据存在,也可以执行语音质量转换。然而,专利文献1中描述的技术需要不包括目标说话者以外的噪声或声音的纯净数据和指示元音段的元音段信息,这仍然难以获得数据。
此外,在非专利文献1中描述的技术中,通过使用语音识别可以在没有元音段信息的情况下执行语音质量转换,但是由于该技术也需要纯净数据,因此数据获取仍然困难。此外,根据非专利文献1中描述的技术,不能说语音质量转换的性能是足够的。
本技术鉴于这种情况而做出,并且本技术使能更容易地进行语音质量转换。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼公司,未经索尼公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880078782.7/2.html,转载请声明来源钻瓜专利网。