[发明专利]语音合成方法、装置、可读介质及电子设备有效

申请号：	202010197181.7	申请日：	2020-03-19
公开（公告）号：	CN111429881B	公开（公告）日：	2023-08-18
发明（设计）人：	殷翔;顾宇	申请（专利权）人：	北京字节跳动网络技术有限公司
主分类号：	G10L13/04	分类号：	G10L13/04;G10L13/047;G10L13/033;G10L25/18;G10L25/30
代理公司：	北京英创嘉友知识产权代理事务所(普通合伙) 11447	代理人：	曹寒梅
地址：	100041 北京市石景山区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音合成方法装置可读介质电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开涉及一种语音合成方法、装置、可读介质及电子设备，包括：获取用户输入的待复制声音和目标模板，待复制声音为由用户发音的任意长度的声音片段；从待复制声音中提取得到待复制频谱数据；确定与目标模板对应的模板文字信息；根据待复制频谱数据和模板文字信息确定与目标模板和待复制声音中的音色对应的目标频谱数据。这样，能够根据用户输入的任意长度的声音片段即可实现对用户的声音进行复制，并由此来以用户的声音来对文字进行发声，进而实现对文字的朗读或对歌曲的演唱，既无需用户按照限定的内容进行语音输入，而且也无需用户进行长时间的语音输入，在保证声音复制效果的前提下简化了用户声音复制的复杂度。

技术领域

本公开涉及语音合成技术领域，具体地，涉及一种语音合成方法、装置、可读介质及电子设备。

背景技术

现有技术中，想要复制说话人的音色，从而实现以该说话人的音色来自动生成任意语音，需要获取到说话人足量的语音信息，或者，甚至需要说话人输入大量且特定的语音信息，才能够实现比较好的声音音色的复制效果，并且对于单一说话人的语音训练数据训练得到的相关语音合成模型也无法通用于其他人，因此很难应用于实际应用中。

发明内容

提供该发明内容部分以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

第一方面，本公开提供一种语音合成方法，所述方法包括：

获取用户输入的待复制声音和目标模板，所述待复制声音为由用户发音的任意长度的声音片段；

从所述待复制声音中提取得到待复制频谱数据；

确定与所述目标模板对应的模板文字信息；

根据所述待复制频谱数据和所述模板文字信息确定与所述目标模板和所述待复制声音中的音色对应的目标频谱数据；

将所述目标频谱数据合成为目标语音波形数据。