[发明专利]基于对偶学习的语音识别与语音合成模型训练方法在审

申请号：	201711391634.4	申请日：	2017-12-21
公开（公告）号：	CN108133705A	公开（公告）日：	2018-06-08
发明（设计）人：	杨华兴;刘云浩	申请（专利权）人：	儒安科技有限公司
主分类号：	G10L15/06	分类号：	G10L15/06;G10L13/08;G10L25/27
代理公司：	无锡市大为专利商标事务所(普通合伙) 32104	代理人：	曹祖良;屠志力
地址：	214135 江苏省无锡市新吴***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供一种基于对偶学习的语音识别与语音合成模型训练方法，包括以下步骤：首先，把语音识别作为“主任务”，语音合成作为“对偶任务”；使用待训练的语音识别模型，把语音数据A转化为文本B′；使用预先训练得到的文本语言模型，计算得到由语音数据A转化得到的文本是由人类书写而不是由机器生成的置信度；使用待训练的语音合成模型，把由语音数据A转化得到的文本B′，转化回语音数据A′；使用预先训练得到的语音语言模型，计算语音数据A′与原始的语音数据A之间的“重构相似度”；计算最终的“奖励”，使用强化学习技术中的REINFORCE算法对待训练的语音识别模型和语音合成模型的参数进行更新。本发明可节省由于收集数据而带来的大量成本开销。
搜索关键词：	语音数据语音识别语音合成模型对偶文本转化语音语言模型成本开销强化学习收集数据文本语言语音合成相似度置信度重构算法书写学习更新奖励
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于对偶学习的语音识别与语音合成模型训练方法，其特征在于，包括以下步骤：步骤S1，首先，把语音识别作为“主任务”，语音合成作为“对偶任务”；步骤S2，从语音数据集D_A和文本数据集D_B中分别选取训练数据，根据“主任务”和“对偶任务”的选取来确定训练数据的形式；步骤S3，使用待训练的语音识别模型，把语音数据A转化为文本B′；步骤S4，使用预先训练得到的文本语言模型，计算得到由语音数据A转化得到的文本是由人类书写而不是由机器生成的置信度，记作R₁；步骤S5，使用待训练的语音合成模型，把由语音数据A转化得到的文本B′，转化回语音数据A′；步骤S6，使用预先训练得到的语音语言模型，计算语音数据A′与原始的语音数据A之间的“重构相似度”，记作R₂；步骤S7，计算最终的“奖励”，记作R＝α×R₁+(1‑α)×R₂；α∈(0,1)；步骤S8，根据得到的最终“奖励”R，使用强化学习技术中的REINFORCE算法对待训练的语音识别模型和语音合成模型的参数进行更新；最后，回到步骤S1，把语音合成作为“主任务”，语音识别作为“对偶任务”，把接下来的步骤中的数据进行对称的交换，重复执行步骤S1～S8，直到语音识别模型和语音合成模型都收敛或达到程序停止条件。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于儒安科技有限公司，未经儒安科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201711391634.4/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于对偶学习的语音识别与语音合成模型训练方法在审

专利文献下载