[发明专利]语音合成方法、装置、计算机设备及存储介质在审

申请号：	201910602385.1	申请日：	2019-07-05
公开（公告）号：	CN110459200A	公开（公告）日：	2019-11-15
发明（设计）人：	向纯玉	申请（专利权）人：	深圳壹账通智能科技有限公司
主分类号：	G10L13/02	分类号：	G10L13/02;G10L13/08;G10L15/02;G10L15/06;G10L15/08;G10L15/25;G06K9/00
代理公司：	44325 深圳众鼎专利商标代理事务所(普通合伙)	代理人：	周燕君<国际申请>=<国际公布>=<进入
地址：	518000广东省深圳市前海深港合作区前湾***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	人脸图片标签声学模型语音特征参数视频人脸特征人脸计算机设备存储介质语音标签语音合成准确率语音合成角色
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种语音合成方法、装置、计算机设备及存储介质，该方法通过获取待配音视频中的人脸图片；提取所述人脸图片的人脸特征；根据所述人脸特征确定所述待配音视频中的人脸图片对应的人脸标签；从声学模型库中选取所述人脸标签对应的声学模型，所述声学模型包括多个语音标签；确定多个所述语音标签中每个所述语音标签对应的语音特征参数；采用每个所述语音标签对应的语音特征参数为所述待配音视频中的人脸图片对应的角色合成语音，以实现提高配音准确率目的。

技术领域

本发明涉及计算机领域，尤其涉及一种语音合成方法、装置、计算机设备及存储介质。

背景技术

目前，随着新媒体的不断发展，逐渐诞生了适用于网络的自媒体，这些自媒体通常会制作一些简单的配音视频用以娱乐大众。然而在这一类视频中，由于制作成本的原因，视频中的角色配音通常采用语音合成技术得到。由于当前的语音合成技术音色单一，只有简单的一种和两种音色，这样会容易导致人物角色之间缺乏关联性，人物角色的人脸和声音不相匹配或者匹配度不高，从而导致配音准确率不高。

发明内容

本发明实施例提供一种语音合成方法、装置、计算机设备及存储介质，以实现提高配音的准确率的目的。

一种语音合成方法，包括：

获取待配音视频中的人脸图片；

提取所述人脸图片的人脸特征；

根据所述人脸特征确定所述待配音视频中的人脸图片对应的人脸标签；

从声学模型库中选取所述人脸标签对应的声学模型，所述声学模型包括多个语音标签；

确定多个所述语音标签中每个所述语音标签对应的语音特征参数；

采用每个所述语音标签对应的语音特征参数为所述待配音视频中的人脸图片对应的角色合成语音。

一种语音合成装置，包括：

第一获取模块，用于获取待配音视频中的人脸图片；

第一提取模块，用于提取所述人脸图片的人脸特征；

第一确定模块，用于根据所述人脸特征确定所述待配音视频中的人脸图片对应的人脸标签；

选取模块，用于从声学模型库中选取所述人脸标签对应的声学模型，所述声学模型包括多个语音标签；

第二确定模块，用于确定多个所述语音标签中每个所述语音标签对应的语音特征参数；

合成模块，用于采用每个所述语音标签对应的语音特征参数为所述待配音视频中的人脸图片对应的角色合成语音。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述语音合成方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述语音合成方法的步骤。

上述语音合成方法、装置、计算机设备及存储介质，通过获取待配音视频中的人脸图片，然后对人脸图片的人脸特征分析得到人脸图片对应的人脸标签，然后根据人脸标签从声学模型库中选取声学模型，采用声学模型对应的语音特征参数来合成声音，能够依据人脸得到不同语音特征参数，根据语音特征参数合成声音，能够识别娱乐视频中的角色人脸特征，从而根据人脸特征为人物角色匹配一个最贴合人脸特征的声学模型，使得配音与人物角色之间的关联性增强，提高了人脸与配音之间的匹配度，避免了人声不对应的情况，从而提高配音的准确率。

附图说明

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于深圳壹账通智能科技有限公司，未经深圳壹账通智能科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910602385.1/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语音合成方法、装置、计算机设备及存储介质在审

专利文献下载