[发明专利]基于对偶学习的语音识别与语音合成模型训练方法在审
申请号: | 201711391634.4 | 申请日: | 2017-12-21 |
公开(公告)号: | CN108133705A | 公开(公告)日: | 2018-06-08 |
发明(设计)人: | 杨华兴;刘云浩 | 申请(专利权)人: | 儒安科技有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L13/08;G10L25/27 |
代理公司: | 无锡市大为专利商标事务所(普通合伙) 32104 | 代理人: | 曹祖良;屠志力 |
地址: | 214135 江苏省无锡市新吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音数据 语音识别 语音合成模型 对偶 文本 转化 语音语言模型 成本开销 强化学习 收集数据 文本语言 语音合成 相似度 置信度 重构 算法 书写 学习 更新 奖励 | ||
本发明提供一种基于对偶学习的语音识别与语音合成模型训练方法,包括以下步骤:首先,把语音识别作为“主任务”,语音合成作为“对偶任务”;使用待训练的语音识别模型,把语音数据A转化为文本B′;使用预先训练得到的文本语言模型,计算得到由语音数据A转化得到的文本是由人类书写而不是由机器生成的置信度;使用待训练的语音合成模型,把由语音数据A转化得到的文本B′,转化回语音数据A′;使用预先训练得到的语音语言模型,计算语音数据A′与原始的语音数据A之间的“重构相似度”;计算最终的“奖励”,使用强化学习技术中的REINFORCE算法对待训练的语音识别模型和语音合成模型的参数进行更新。本发明可节省由于收集数据而带来的大量成本开销。
技术领域
本发明涉及语音识别与语音合成技术领域,特别的它是一种利用对偶学习的性质,使用大量的无标签的数据和强化学习技术、以无监督的方式对使用深度学习技术建立的语音识别和语音合成的模型进行训练的方法,可应用于语音识别、语音合成领域。
背景技术
语音是人们日常交流活动的最基本、也是最有效的一种方式。随着人工智能技术的日渐成熟,人们也希望能够通过直接对话的方式与计算机进行交流和传递信息,因此语音识别、语音合成也随之成为自然语言处理领域中的一大主题。语音转文字以及根据文字合成语音等各种形式的需求日渐扩大,比如:语音输入法的使用量呈现飞速的增长。
传统的语音识别与语音合成模型的训练方法需要大量的、一一对应的语音数据和文本数据,但收集足够数量的这样的一一对应的数据不仅是一个费时费力的工作,同时还很难保证收集到的数据的质量,另外,数据的收集也会带来很大的成本开销。没有足够数量的高质量数据成为提升语音识别与语音合成模型的准确度、转换效率等性能的一大阻碍。
因特网的高速普及、信息技术的飞速发展以及社交媒体的兴起,使得语音数据和文本数据飞速增长,比如:微信语音、语音输入、微博以及产品评论等。如果能够把这些海量的无标签的数据应用到语音识别、语音合成模型的建立和训练中,将会对两者性能的提升有很大帮助,并且可以节省由于收集数据而带来的大量的成本开销。
仔细观察可以发现,语音识别与语音合成有着天然的互为“对偶”任务的性质:语音识别将语音转化为相对应的文本,语音合成将给定的文本转化为相对应的语音。如果把其中一个看做是“主任务”,另一个看做是“对偶任务”,两者就可以形成一个“闭环”。在这个“闭环”进行的过程中会产生很多丰富的中间反馈信息,如果能够利用这些中间的反馈信息来训练语音识别与语音合成模型,将会很好的解决数据量较小和数据质量不高的问题。
发明内容
本发明的目的在于使用大量的无标签的数据,通过无监督的方法对语音识别和语音合成模型进行训练,从而改善现有的语音识别和语音合成模型的性能,同时节省由于收集数据而带来的大量的成本开销。
为了实现以上目的,本发明提出一种基于对偶学习的语音识别与语音合成模型训练方法,利用语音识别与语音合成互为“对偶”任务的性质,使用大量的无标签的数据和强化学习技术,对利用深度学习技术建立的语音识别和语音合成模型进行训练,包括以下步骤:
步骤S1,首先,把语音识别作为“主任务”,语音合成作为“对偶任务”;
步骤S2,从语音数据集DA和文本数据集DB中分别选取训练数据,根据“主任务”和“对偶任务”的选取来确定训练数据的形式;因为此处把语音识别看做是“主任务”,所以训练数据的形式是“语音A文本B”;
步骤S3,使用待训练的语音识别模型,把语音数据A转化为文本B′;
步骤S4,使用预先训练得到的文本语言模型,计算得到由语音数据A转化得到的文本是由人类书写而不是由机器生成的置信度,记作R1;
步骤S5,使用待训练的语音合成模型,把由语音数据A转化得到的文本B′,转化回语音数据A′;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于儒安科技有限公司,未经儒安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711391634.4/2.html,转载请声明来源钻瓜专利网。