[发明专利]一种基于TTS的音频拼接优化的方法及其装置有效
申请号: | 202010188222.6 | 申请日: | 2020-03-17 |
公开(公告)号: | CN111460094B | 公开(公告)日: | 2023-05-05 |
发明(设计)人: | 李旭滨;詹学君 | 申请(专利权)人: | 云知声智能科技股份有限公司;厦门云知芯智能科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/338;G06F16/35;G10L13/04;G10L21/0208 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 陈国军 |
地址: | 100000 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 tts 音频 拼接 优化 方法 及其 装置 | ||
本发明提供了一种基于TTS的音频拼接优化的方法及其装置,构建基于知性会话的知识库;接收到用户问题录音后,确定所述用户问题录音的用户参数;所述知识库根据所述用户问题录音确定对应的解答录音;将所述解答录音进行分段,并将分段后的所述解答录音和用户参数以TTS合成技术合成拼接录音。获取用户的真人录音并生成测试集,通过所述测试集对所述拼接录音进行训练,根据所述训练结果对所述拼接录音进行动态优化。本发明的有益效果:本发明在智能外呼等场景中,给用户回答中需要动态填充参数如用户的姓名等,使得拼接后录音听感自然,能够提升合成语音与真人录音一致性。能够在拼接时去掉前后段的录音的静音时长,以提升拼接处的连贯性。
技术领域
本发明涉及人机交互的对话技术领域,特别涉及一种基于TTS的音频拼接优化的方法及其装置。
背景技术
目前,在外呼的多轮对话中,知性会话(KRC)是一种常用的FAQ的知识库,其中一个问题和N多相似问题以及一个答案的录音,对话中用户命中KRC中问题后,然后播放配置的答案录音给用户,其中对播报文本中固定句式部分采用真人录音,对于文本中需要经常变化的部分(通常称为槽位,例如人名等)采用合成语音,然后将真人录音与合成语音做实时拼接。由于外呼中,现有技术方案由于合成系统效果的限制,会存在合成语音音质、音色与真人录音听感上差异性较大,从而导致TTS拼接后的语音听感上很不自然,而且在拼接处存在明显的跳变感,影响产品体验。
发明内容
本发明提供一种基于TTS的音频拼接优化的方法及其装置,用以解决现有技术方案由于合成系统效果的限制,会存在合成语音音质、音色与真人录音听感上差异性较大,从而导致TTS拼接后的语音听感上很不自然,产品体验不好的情况。
一种基于TTS的音频拼接优化的方法,其特征在于,包括:
构建基于知性会话的知识库;
接收到用户问题录音后,确定所述用户问题录音的用户参数;并根据所述用户问题录音在所述知识库中确定解答录音;
将所述解答录音进行分段,并将分段后的解答录音和用户参数以TTS合成技术合成拼接录音;
获取用户的真人录音并生成测试集,通过所述测试集对所述拼接录音进行训练,得到训练结果,根据所述训练结果对所述拼接录音进行动态优化。
作为本发明的一种实施例:所述构建基于知性会话的知识库,包括:
获取智能外呼场景中基于知性会话的知识图谱;
根据所述知识图谱,确定所述知识图谱中的问题集和答案集,并确定所述问题集中每一个问题的问题参数和答案集中每一个答案的答案参数;
根据所述答案集将答案与所述问题集中的问题对应,其中,所述答案集中的每一答案对应有所述问题集中的多个问题;
将所述答案集中每一个答案和答案参数与所述每一个答案对应的问题和问题参数分别合成,得到多个数据单元;
将所有的所述数据单元进行整理,构成知识库。
作为本发明的一种实施例:所述接收到用户问题录音后,确定所述用户问题录音的用户参数,并根据所述用户问题录音在所述知识库中确定解答录音,包括:
根据所述问题类型,在所述知识库中得到相同类型的问题的问题集;
根据所述关键字确定所述用户问题录音的用户问题参数;
将所述用户问题参数与所述问题集中每一个的问题的问题参数相匹配,并获取匹配结果;
根据所述匹配结果,在所述问题集中确定同答案问题;
根据所述同答案问题在所述知识库中获取解答录音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司;厦门云知芯智能科技有限公司,未经云知声智能科技股份有限公司;厦门云知芯智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010188222.6/2.html,转载请声明来源钻瓜专利网。