[发明专利]音频模型学习方法、语音识别方法、音频模型学习装置、语音识别装置及记录介质有效
申请号: | 201780009153.4 | 申请日: | 2017-01-26 |
公开(公告)号: | CN108701452B | 公开(公告)日: | 2023-09-26 |
发明(设计)人: | M·德尔克鲁瓦;木下庆介;小川厚德;吉冈拓也;中谷智广 | 申请(专利权)人: | 日本电信电话株式会社 |
主分类号: | G10L15/065 | 分类号: | G10L15/065;G10L15/16 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 黄纶伟;金玲 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 模型 学习方法 语音 识别 方法 学习 装置 记录 介质 | ||
音频模型学习装置(10)先提取表示语音数据的特征的语音特征量,基于对由神经网络表示的音频条件的计算模型赋予特征的音频条件计算模型参数,利用音频条件的计算模型而计算表示语音数据的音频条件的特征的音频条件特征量。接着,音频模型学习装置(10)生成校正后参数,该校正后参数是基于音频条件特征量而校正对结合了音频条件的计算模型的输出层的由神经网络表示的音频模型赋予特征的音频模型参数的参数。并且,音频模型学习装置(10)基于校正后参数及语音特征量而更新音频模型参数,并基于校正后参数及语音特征量而更新音频条件计算模型参数。
技术领域
本发明涉及音频模型学习方法、语音识别方法、音频模型学习装置、语音识别装置及记录介质。
背景技术
以往以来,具有利用根据隐马尔可夫模型(以下,称为HMM(Hidden MarkovModel))而学习了学习用的语音数据的音频模型,由识别用语音数据识别说话者的语音的技术(例如,参照非专利文献1)。
识别用语音数据因周围的噪音、说话者的多样性等,学习用的语音数据与特征不一致的情况较多。换言之,包括学习用的语音数据及识别用语音数据分别所在的周围的噪音的音频环境、作为每个说话者的特性的说话者特性等音频条件的不一致导致语音的识别精度下降。因此,要求语音识别技术对音频条件可靠。作为可靠的语音识别技术,具有使用适应数据并通过重估而学习音频模型的参数,以使识别用语音数据符合音频模型的技术(例如,参照非专利文献2)。并且,作为参数的重估方法,广泛使用误差反向传播法等(例如,参照非专利文献3)。
现有技术文献
非专利文献
非专利文献1:G.Hinton et al.,“Deep Neural Networks for AcousticModeling in Speech Recognition,The shared views of four research groups,”IEEESIGNAL PROCESSING MAGAZINE,Vol.29,No.6,pp.82-97,2012.
非专利文献2:H.Liao,“SPEAKER ADAPTATION OF CONTEXT DEPE NDENT DEEPNEURAL NETWORKS,”in Proc.of ICASSP’13,2013,pp.7947-7951.
非专利文献3:S.Haykin,“NEURAL NETWORKS:A COMPREHENSIVE FOUNDATION,”Prentice Hall PTR,Upper Saddle River,NJ,USA,2nd edition,1999.
发明内容
发明要解决的课题
但是,在上述技术中,由于音频模型的学习用的语音数据所在的音频条件与识别用语音数据所在的音频条件未必相同,因此在音频模型与语音识别时的语音特征量上存在不匹配,其结果,语音识别的精度下降。
为了抑制语音识别的精度下降,例如,利用与识别用语音数据相同的音频条件的适应数据而使音频模型的参数适应。但是,为了高精度地估计大量的音频模型的参数,需要庞大的语音数据量。并且,在为了估计参数而使用的语音中,需要表示其语音的标签(例如,说话者ID、转录等)。因此,在将所观测的识别用语音数据适应到音频模型的参数时需要庞大的计算,存在无法实现高速的参数适应的问题。
因此,本申请所公开的实施方式的一例的目的在于,在语音识别时,高精度且高速地实现音频模型的参数适应。
用于解决课题的手段
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于日本电信电话株式会社,未经日本电信电话株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780009153.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:系统、控制方法、控制终端以及程序
- 下一篇:模块化深度学习模型