[发明专利]声音转换方法及相关产品在审
申请号: | 201910749884.3 | 申请日: | 2019-08-14 |
公开(公告)号: | CN110600045A | 公开(公告)日: | 2019-12-20 |
发明(设计)人: | 钟良;江源 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G10L21/007 | 分类号: | G10L21/007;G10L21/013;G10L13/02;G10L13/04;G10L13/047 |
代理公司: | 44202 广州三环专利商标代理有限公司 | 代理人: | 郝传鑫;熊永强 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 录入信息 中间数据 语音合成模型 目标发音 接收网络设备 用户体验度 获取目标 目标语音 声音转换 网络设备 音频特征 用户设备 申请 匹配 合成 发送 返回 | ||
本申请实施例公开了一种声音转换方法及相关产品,所述方法应用于用户设备,所述方法包括如下步骤:获取目标对象的录入信息,将所述录入信息发送至网络设备;接收网络设备返回的与所述录入信息匹配的中间数据,所述中间数据为与目标发音人无关的音频特征数据;确定所述目标发音人的语音合成模型,将所述中间数据输入到语音合成模型合成得到目标语音数据。本申请提供的技术方案具有用户体验度高的优点。
技术领域
本申请涉及电子设备技术领域,具体涉及一种声音转换方法及相关产品。
背景技术
声音转换是指在保持说话内容信息一致的前提下,将原说话人的声音(源音频)转换成目标说话人的声音(目标音频)。该技术具有广泛的应用场景:例如用于娱乐,可将自己的声音转成某位明星的声音,或者将其他有声读物的声音转换成自己的声音;例如用于发音辅助,帮助发音障碍者实现正常发音等。声音转换具有大规模的特点,所述大规模是指该声音转换支持转换的目标说话人的数目众多,可达几万甚至几百万数目,因此声音转换的时间成为用户关注的焦点,现有的声音转换的时间长,用户体验度低。
发明内容
本申请实施例提供了一种声音转换方法及相关装置,以期减少声音转换的时间,提升用户体验度。
第一方面,本申请实施例提供一种声音转换方法,包括:声音转换方法,所述方法应用于用户设备,所述方法包括如下步骤:
获取目标对象的录入信息,将所述录入信息发送至网络设备;
接收网络设备返回的与所述录入信息匹配的中间数据,所述中间数据为与目标发音人无关的音频特征数据;
确定所述目标发音人的语音合成模型,将所述中间数据输入到语音合成模型合成得到目标语音数据。
可选的,所述中间数据为所述网络设备对源音频文件处理得到的中间数据,所述源音频文件为所述网络设备依据所述录入信息查询得到的源音频文件。
可选的,所述中间数据为所述网络设备依据所述录入信息以及录入信息与中间数据的映射关系查询得到的与所述录入信息匹配的中间数据。
可选的,所述获取目标对象的录入信息具体包括:
所述中间数据为所述网络设备解析所述录入信息得到的中间数据。
可选的,所述获取目标对象的录入信息具体包括:
采集目标对象发出的语音信息;
或采集目标对象依据显示页面选择的触控信息,依据所述触控信息的位置确定音频标识信息。
可选的,所述确定所述目标发音人的语音合成模型具体包括:
确定所述目标发音人,从预设的语音合成模型中查询得到与所述目标发音人匹配的语音合成模型。
第二方面,提供一种声音转换方法,所述方法包括如下步骤:
用户设备获取目标对象的录入信息,将所述录入信息发送至网络设备;
网络设备获取与所述录入信息匹配的中间数据,所述中间数据为与目标发音人无关的音频特征数据,将所述中间数据发送至所述用户设备;
所述用户设备确定所述目标发音人的语音合成模型,将所述中间数据输入到语音合成模型合成得到目标语音数据。
可选的,所述网络设备获取与所述录入信息匹配的中间数据具体包括:
所述网络设备依据所述录入信息查询得到源音频文件,将所述源音频文件处理得到所述中间数据。
可选的,所述网络设备获取与所述录入信息匹配的中间数据具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910749884.3/2.html,转载请声明来源钻瓜专利网。