[发明专利]一种基于AI视频声道变声器在审

申请号：	202111591729.7	申请日：	2021-12-23
公开（公告）号：	CN114333836A	公开（公告）日：	2022-04-12
发明（设计）人：	蔡彬;胡亚平;彭培超	申请（专利权）人：	天翼视讯传媒有限公司
主分类号：	G10L15/26	分类号：	G10L15/26;G10L13/027
代理公司：	上海申汇专利代理有限公司 31001	代理人：	翁若莹;柏子雵
地址：	200120 上海市浦东新区中国***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 ai 视频声道变声
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于AI视频声道变声器，其特征在于，包括：语音录制模块；语音包生成模块；语音分解模块；语音信号识别模块；语音合成模块；语音修正模块；语音合成模块。相比于现有技术而言，采用本发明提供的变声器能够将AI语音助手所发出的声音转变为接近目标实施人物的声音，使得AI语音助手所发出的声音更加接近于真实的人声。并且，在本发明所公开的技术方案中，语音包仅用于存储63个汉语拼音字母所对应的语音信号，所需的存储量较少。

技术领域

本发明涉及一种视频声道变声器。

背景技术

目前，几乎所有的智能终端都内置了AI语音助手，例如小米公司的小爱同学、苹果公司的Siri等。所有这些AI语音助手的共同特点是：第一、可以响应用户给出的语音指令，控制智能终端进行响应的操作；第二、可以与用户进行简单的互动。

当AI语音助手与用户进行互动时或者通过语音向用户反馈其语音指令的操作反馈时，AI语音助手会加载内置的语音包，依据语音包的设置发出相应的声音。然而，用户基本上只能选择AI语音助手发出男声还是女声，其发出的声音与真实的人的声音依然存在一定差距，从听感上而言，更接近于机器人声音。

发明内容

本发明要解决的技术问题是：目前AI语音助手所发出的声音种类有限，且更接近于机器人声音。

为了解决上述技术问题，本发明的技术方案是提供了一种基于AI视频声道变声器，其特征在于，包括：

语音录制模块，由目标实施人物念出汉语拼音的63个字母后，通过语音录制模块获得每个汉语拼音所对应的语音信号；

语音包生成模块，将通过语音录制模块获得的每个汉语拼音字母与对应的语音信号关联存储后形成语音包，将该语音包存储在智能终端内；

语音分解模块，用于获取当前智能终端所发出的一段机器人语音，将该段机器人语音转变为文字后，对文字进行分字处理，获得组成每一个字的汉语拼音字母，并且获得每个字所对应的机器人语音信号；

语音信号识别模块，用于识别语音信号的信号参数；

当语音分解模块获得每个字所对应的机器人语音信号后，调用语音信号识别模块获得每个字所对应的机器人语音信号的信号参数；

语音合成模块，用于调用语音包生成模块所生成的语音包后合成与语音分解模块获得的每个字所对应的目标实施人物语音信号，包括以下步骤：

步骤1、语音合成模块获得语音分解模块给出的每个字所对应的所有汉语拼音字母；

步骤2、依据步骤1所获得的汉语拼音字母，从语音包生成模块所生成的语音包中调用与每个汉语拼音字母对应的目标实施人物的语音信号；

步骤3、对于步骤1中所述任意一个字而言，获得组成当前字的所有汉语拼音字母所对应的目标实施人物的语音信号，调用语音信号识别模块获得每个语音信号的语音参数，再基于语音参数利用语音合成算法将同一个字对应的所有目标实施人物的语音信号合成一个目标实施人物语音信号；

当语音合成模块获得每个字所对应的目标实施人物语音信号后，调用语音信号识别模块获得每个字所对应的目标实施人物语音信号的信号参数；

语音修正模块，获得同一个字的机器人语音信号的信号参数以及目标实施人物语音信号的信号参数后，由语音修正模块基于两个信号参数的差异计算得到信号修正数据，再利用信号修正数据对机器人语音信号进行修正；

语音合成模块，利用语音修正模块实现对组成语音分解模块所获得一段文字的所有字的机器人语音信号的修正后，由语音合成模块依据字的顺序重新将所有修正后的机器人语音信号合成一段语音信号后进行播放。

优选的，所述信号参数包括基音周期、基频和共振峰频率。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于天翼视讯传媒有限公司，未经天翼视讯传媒有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111591729.7/2.html，转载请声明来源钻瓜专利网。

上一篇：一种由九段齿曲线组成的双螺杆双边非对称转子型线
下一篇：一种目标检测模型的训练方法及相关装置

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于AI视频声道变声器在审

专利文献下载