[发明专利]一种生成语音包的方法、装置、设备和计算机存储介质在审
申请号: | 201910870412.3 | 申请日: | 2019-09-16 |
公开(公告)号: | CN110751940A | 公开(公告)日: | 2020-02-04 |
发明(设计)人: | 黄际洲;李莹;季永志;贾磊 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;H04L29/08 |
代理公司: | 11412 北京鸿德海业知识产权代理事务所(普通合伙) | 代理人: | 田宏宾 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音数据 录入 语音录制 语音包 服务器端 合成模型 训练语音 计算机存储介质 用户提供语音 个性化语音 客户端提供 录制设备 下载地址 语音技术 制作周期 触发 上传 申请 录制 制作 | ||
本申请公开了一种生成语音包的方法、装置、设备和计算机存储介质,涉及语音技术领域。具体实现方案为:向用户提供语音录制界面;在所述语音录制界面上获取到触发语音录制的事件后,获取用户录入的语音数据;若录入的语音数据符合训练语音合成模型的要求,则上传录入的语音数据至服务器端;接收所述服务器端利用所述语音数据训练语音合成模型后生成的语音包的下载地址。通过本申请,普通用户也能够通过客户端提供的语音录制界面即可实现个性化语音包的定制,无需专业的录制设备,大大降低了语音包的制作成本。并且大大缩短了制作周期,减少了需要录入的语音数据数量。
技术领域
本申请涉及计算机应用技术领域,特别涉及一种语音技术领域中生成语音包的方法、装置、设备和计算机存储介质。
背景技术
随着计算机技术的不断发展和人们对于产品要求的不断提高,出现了利用语音合成技术在计算机应用产品中提供不同发音人的语音播报功能。例如,在地图类产品中,进行导航语音播报时,用户可以选择地图类产品提供的不同发音人进行导航语音播报。这些发音人往往是诸如影视演员、相声演员、歌手等知名人士。需要邀请这些知名人士到专业的录制设备录制语音,例如对于导航类应用,需要录制上万句导航过程中常用的语音,然后利用录制的语音生成语音包供客户端下载。在导航过程中需要进行播报时,从语音包中找到对应的语音进行拼接,得到播报文本。
然而现有生成语音包的方式具备以下缺点:一方面需要专业的录制设备录制上万句的语音,并手动上线到具体的应用服务端,成本高,制作周期长;另一方面,如果用户希望采用诸如自己的声音、家人的声音等生成个性化语音包,则无法实现。
发明内容
有鉴于此,本申请提供了一种生成语音包的方法、装置、设备和计算机存储介质,以便于降低成本且能够方便的实现利用普通用户的声音生成个性化语音包。
第一方面,本申请提供了一种生成语音包的方法,由客户端执行,该方法包括:
向用户提供语音录制界面;
在所述语音录制界面上获取到触发语音录制的事件后,获取用户录入的语音数据;
若录入的语音数据符合训练语音合成模型的要求,则上传录入的语音数据至服务器端;
接收所述服务器端利用所述语音数据训练语音合成模型后生成的语音包的下载地址。
根据本申请一优选实施方式,所述触发语音录制的事件包括:
检测到在所述语音录制界面上触发语音录制的手势;或者,
在展现语音录制界面时,接收到用户触发语音录制的语音指令。
根据本申请一优选实施方式,所述获取用户录入的语音数据包括:
在语音录制界面上展现预设的文本语句和/或播放文本语句对应的领读语句;
获取用户依据展现的文本语句和/或所述领读语句录入的语音数据。
根据本申请一优选实施方式,该方法还包括:
获取对所述录入的语音数据的语音识别结果;
将所述语音识别结果与所述文本语句进行比对以判断所述录入的语音数据是否符合录音质量要求。
根据本申请一优选实施方式,所述训练语音合成模型的要求包括以下至少一种:
录入的语音数据符合录音质量要求;
录入的语音数据数量符合预设的数量要求。
根据本申请一优选实施方式,所述若录入的语音数据符合训练语音合成模型的要求,则上传录入的语音数据至服务器端,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910870412.3/2.html,转载请声明来源钻瓜专利网。