[发明专利]一种生成语音包的方法、装置、设备和计算机存储介质在审

申请号：	201910870412.3	申请日：	2019-09-16
公开（公告）号：	CN110751940A	公开（公告）日：	2020-02-04
发明（设计）人：	黄际洲;李莹;季永志;贾磊	申请（专利权）人：	百度在线网络技术(北京)有限公司
主分类号：	G10L13/02	分类号：	G10L13/02;H04L29/08
代理公司：	11412 北京鸿德海业知识产权代理事务所(普通合伙)	代理人：	田宏宾
地址：	100085 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音数据录入语音录制语音包服务器端合成模型训练语音计算机存储介质用户提供语音个性化语音客户端提供录制设备下载地址语音技术制作周期触发上传申请录制制作
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种生成语音包的方法、装置、设备和计算机存储介质，涉及语音技术领域。具体实现方案为：向用户提供语音录制界面；在所述语音录制界面上获取到触发语音录制的事件后，获取用户录入的语音数据；若录入的语音数据符合训练语音合成模型的要求，则上传录入的语音数据至服务器端；接收所述服务器端利用所述语音数据训练语音合成模型后生成的语音包的下载地址。通过本申请，普通用户也能够通过客户端提供的语音录制界面即可实现个性化语音包的定制，无需专业的录制设备，大大降低了语音包的制作成本。并且大大缩短了制作周期，减少了需要录入的语音数据数量。

技术领域

本申请涉及计算机应用技术领域，特别涉及一种语音技术领域中生成语音包的方法、装置、设备和计算机存储介质。

背景技术

随着计算机技术的不断发展和人们对于产品要求的不断提高，出现了利用语音合成技术在计算机应用产品中提供不同发音人的语音播报功能。例如，在地图类产品中，进行导航语音播报时，用户可以选择地图类产品提供的不同发音人进行导航语音播报。这些发音人往往是诸如影视演员、相声演员、歌手等知名人士。需要邀请这些知名人士到专业的录制设备录制语音，例如对于导航类应用，需要录制上万句导航过程中常用的语音，然后利用录制的语音生成语音包供客户端下载。在导航过程中需要进行播报时，从语音包中找到对应的语音进行拼接，得到播报文本。

然而现有生成语音包的方式具备以下缺点：一方面需要专业的录制设备录制上万句的语音，并手动上线到具体的应用服务端，成本高，制作周期长；另一方面，如果用户希望采用诸如自己的声音、家人的声音等生成个性化语音包，则无法实现。

发明内容

有鉴于此，本申请提供了一种生成语音包的方法、装置、设备和计算机存储介质，以便于降低成本且能够方便的实现利用普通用户的声音生成个性化语音包。

第一方面，本申请提供了一种生成语音包的方法，由客户端执行，该方法包括：

向用户提供语音录制界面；

在所述语音录制界面上获取到触发语音录制的事件后，获取用户录入的语音数据；

若录入的语音数据符合训练语音合成模型的要求，则上传录入的语音数据至服务器端；

接收所述服务器端利用所述语音数据训练语音合成模型后生成的语音包的下载地址。

根据本申请一优选实施方式，所述触发语音录制的事件包括：

检测到在所述语音录制界面上触发语音录制的手势；或者，

在展现语音录制界面时，接收到用户触发语音录制的语音指令。

根据本申请一优选实施方式，所述获取用户录入的语音数据包括：