[发明专利]一种小规模语料DNN-HMM声学训练结构在审

申请号：	201811176926.0	申请日：	2018-10-10
公开（公告）号：	CN109326282A	公开（公告）日：	2019-02-12
发明（设计）人：	马志强;吕浩田;李图雅	申请（专利权）人：	内蒙古工业大学
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/14;G10L15/16
代理公司：	佛山知正知识产权代理事务所(特殊普通合伙) 44483	代理人：	尧娟
地址：	010080 内蒙古自治***	国省代码：	内蒙古;15
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	迁移目标数据源数据训练结构训练算法异构模型声学语料模型参数目标模型使用参数语料库源模型构建建模同构
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种小规模语料DNN‑HMM声学训练结构，包括：源数据、目标数据、源模型、目标模型、目标数据；所述源数据由同构模型参数迁移训练算法与异构模型参数迁移训练算法共同得出，且通过将源数据训练得到的DNN模型的参数迁移到目标数据训练出来的模型中，实现DNN‑HMM异构模型的参数迁移；使用参数迁移训练方法构建的DNN‑HMM蒙古语声学模型在词错率和句错误要比迁移前降低了2.72％和15.22％，说明参数迁移训练方法的有效性和可行性，从而有效的解决了小规模语料库下DNN‑HMM模型建模中存在的问题和不足。

技术领域

本发明涉及声学结构技术领域，尤其涉及一种小规模语料DNN-HMM声学训练结构。

背景技术

由于深度神经网络在建模中，具有根据数据特点自动提取数据特征、记忆数据特征的特点，同时，对数据的分布不做任何假设，因此被广泛的应用到机器学习中。所以，在语音识别的声学建模中引入了深度神经网络。但是，深度神经网络建模时，需要大量的语料数据才能让神经网络得到饱和训练，使得建模的效果才能更好，才能达到实际应用的需要。我们研究的DNN-HMM蒙古语语音识别声学模型，就是利用了深度神经网络的上面优点，对蒙古语语料进行声学模型建模研究的。

在使用DNN-HMM进行声学模型建模时，由于DNN是一个深度神经网络，所以，只有达到饱和训练，才能发挥DNN模型的优势，因此，DNN模型的训练与语料库的大小有关。

定义：在给定DNN模型结构后，训练过程中，当语料规模不断增加时，模型的性能是在不断的变化的。当语料增加到一定时，模型的性能不再发生明显的变化，将这时的语料规模定义为大规模语料库，没有达到这个语料库规模的都指小规模语料库。

因此，在小规模语料库下，如何解决DNN-HMM声学模型的饱和训练，是小规模语料库下DNN-HMM模型建模的难题。这个问题也是我们在研究蒙古语语音识别中的难题之一。所以，我们考虑采用一种办法来解决语料少的问题。因此，我们提出了迁移学习方法解决小规模语料库下的DNN-HMM声学建模方法。

DNN-HMM的声学模型训练过程：

(1)GMM-HMM的模型训练，得到HMM的初始参数，同时得到对齐的训练语料；

(2)根据(1)中对齐语料，按照编号和对齐语料构建DNN语料；

(3)使用(2)的语料进行DNN预训练；

(4)利用初始的HMM和预训练的DNN构建DNN-HMM初始模型；

(5)利用(2)的语料对DNN-HMM进行再一次训练，直到模型的性能优于GMM-HMM模型。

以上训练过程，适合所有语料库的训练，包括大规模或小规模。

发明内容

本发明的目的在于提供一种小规模语料DNN-HMM声学训练结构，以解决背景技术中提出的小规模语料库下DNN-HMM模型建模的难题。