[发明专利]一种基于TTS的音频拼接优化的方法及其装置有效

申请号：	202010188222.6	申请日：	2020-03-17
公开（公告）号：	CN111460094B	公开（公告）日：	2023-05-05
发明（设计）人：	李旭滨;詹学君	申请（专利权）人：	云知声智能科技股份有限公司;厦门云知芯智能科技有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/338;G06F16/35;G10L13/04;G10L21/0208
代理公司：	北京冠和权律师事务所 11399	代理人：	陈国军
地址：	100000 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 tts 音频拼接优化方法及其装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种基于TTS的音频拼接优化的方法及其装置，构建基于知性会话的知识库；接收到用户问题录音后，确定所述用户问题录音的用户参数；所述知识库根据所述用户问题录音确定对应的解答录音；将所述解答录音进行分段，并将分段后的所述解答录音和用户参数以TTS合成技术合成拼接录音。获取用户的真人录音并生成测试集，通过所述测试集对所述拼接录音进行训练，根据所述训练结果对所述拼接录音进行动态优化。本发明的有益效果：本发明在智能外呼等场景中，给用户回答中需要动态填充参数如用户的姓名等，使得拼接后录音听感自然，能够提升合成语音与真人录音一致性。能够在拼接时去掉前后段的录音的静音时长,以提升拼接处的连贯性。

技术领域

本发明涉及人机交互的对话技术领域，特别涉及一种基于TTS的音频拼接优化的方法及其装置。

背景技术

目前，在外呼的多轮对话中，知性会话(KRC)是一种常用的FAQ的知识库,其中一个问题和N多相似问题以及一个答案的录音,对话中用户命中KRC中问题后,然后播放配置的答案录音给用户,其中对播报文本中固定句式部分采用真人录音，对于文本中需要经常变化的部分(通常称为槽位，例如人名等)采用合成语音，然后将真人录音与合成语音做实时拼接。由于外呼中，现有技术方案由于合成系统效果的限制，会存在合成语音音质、音色与真人录音听感上差异性较大，从而导致TTS拼接后的语音听感上很不自然，而且在拼接处存在明显的跳变感，影响产品体验。

发明内容

本发明提供一种基于TTS的音频拼接优化的方法及其装置，用以解决现有技术方案由于合成系统效果的限制，会存在合成语音音质、音色与真人录音听感上差异性较大，从而导致TTS拼接后的语音听感上很不自然，产品体验不好的情况。

一种基于TTS的音频拼接优化的方法，其特征在于，包括：

构建基于知性会话的知识库；

接收到用户问题录音后，确定所述用户问题录音的用户参数；并根据所述用户问题录音在所述知识库中确定解答录音；

将所述解答录音进行分段，并将分段后的解答录音和用户参数以TTS合成技术合成拼接录音；

获取用户的真人录音并生成测试集，通过所述测试集对所述拼接录音进行训练，得到训练结果，根据所述训练结果对所述拼接录音进行动态优化。

作为本发明的一种实施例：所述构建基于知性会话的知识库，包括：

获取智能外呼场景中基于知性会话的知识图谱；

根据所述知识图谱，确定所述知识图谱中的问题集和答案集，并确定所述问题集中每一个问题的问题参数和答案集中每一个答案的答案参数；

根据所述答案集将答案与所述问题集中的问题对应，其中，所述答案集中的每一答案对应有所述问题集中的多个问题；

将所述答案集中每一个答案和答案参数与所述每一个答案对应的问题和问题参数分别合成，得到多个数据单元；