[发明专利]一种生成语音包的方法、装置、设备和计算机存储介质在审

申请号：	201910870412.3	申请日：	2019-09-16
公开（公告）号：	CN110751940A	公开（公告）日：	2020-02-04
发明（设计）人：	黄际洲;李莹;季永志;贾磊	申请（专利权）人：	百度在线网络技术(北京)有限公司
主分类号：	G10L13/02	分类号：	G10L13/02;H04L29/08
代理公司：	11412 北京鸿德海业知识产权代理事务所(普通合伙)	代理人：	田宏宾
地址：	100085 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音数据录入语音录制语音包服务器端合成模型训练语音计算机存储介质用户提供语音个性化语音客户端提供录制设备下载地址语音技术制作周期触发上传申请录制制作
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种生成语音包的方法，由客户端执行，其特征在于，该方法包括：

向用户提供语音录制界面；

在所述语音录制界面上获取到触发语音录制的事件后，获取用户录入的语音数据；

若录入的语音数据符合训练语音合成模型的要求，则上传录入的语音数据至服务器端；

接收所述服务器端利用所述语音数据训练语音合成模型后生成的语音包的下载地址，所述语音包的内容是训练得到的模型参数；

通过所述下载地址下载语音包并集成至客户端，以使所述客户端利用播报文本和所述模型参数，得到播报语音。

2.根据权利要求1所述的方法，其特征在于，所述触发语音录制的事件包括：

检测到在所述语音录制界面上触发语音录制的手势；或者，

在展现语音录制界面时，接收到用户触发语音录制的语音指令。

3.根据权利要求1所述的方法，其特征在于，所述获取用户录入的语音数据包括：

在语音录制界面上展现预设的文本语句和/或播放文本语句对应的领读语句；

获取用户依据展现的文本语句和/或所述领读语句录入的语音数据。

4.根据权利要求3所述的方法，其特征在于，该方法还包括：

获取对所述录入的语音数据的语音识别结果；

将所述语音识别结果与所述文本语句进行比对以判断所述录入的语音数据是否符合录音质量要求。

5.根据权利要求1所述的方法，其特征在于，所述训练语音合成模型的要求包括以下至少一种：

录入的语音数据符合录音质量要求；

录入的语音数据数量符合预设的数量要求。

6.根据权利要求5所述的方法，其特征在于，所述若录入的语音数据符合训练语音合成模型的要求，则上传录入的语音数据至服务器端，包括：

判断录入的当前一条语音数据是否符合录音质量要求，如果是，则获取用户录入的下一条语音数据，直至录入的符合录音质量要求的语音数据数量符合预设的数量要求；如果否，则提示用户重新录入当前一条语音数据。

7.根据权利要求1所述的方法，其特征在于，在所述获取用户录入的语音数据之前，还包括：

在所述语音录制界面上展现声音类别选项；

获取用户选择的声音类别信息并上传至服务器端，以用于所述语音合成模型的训练。

8.根据权利要求1所述的方法，其特征在于，若录入的语音数据符合训练语音合成模型的要求，则上传录入的语音数据至服务器端包括：

若录入的语音数据符合训练语音合成模型的要求，则在所述语音录制界面上展现上传语音数据的组件；

获取到用户触发所述上传语音数据的组件的事件后，上传录入的语音数据至服务器端。

9.根据权利要求1所述的方法，其特征在于，通过所述下载地址下载语音包包括：

展现所述语音包的下载链接，所述下载链接包含所述语音包的下载地址；

获取到用户触发所述下载链接的事件后，从所述服务器端下载所述语音包。

10.根据权利要求9所述的方法，其特征在于，所述客户端利用播报文本和所述模型参数，得到播报语音包括：

将播报文本和所述语音包包含的模型参数发送至服务器端，由服务器端利用所述文本和模型参数进行语音合成，得到播报语音；或者，

调用语音合成模型，以便所述语音合成模型利用所述播报文本和所述语音包包含的模型参数进行语音合成，获取语音合成模型合成的播报语音。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司，未经百度在线网络技术(北京)有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910870412.3/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载