[发明专利]一种基于域不变特征的语音识别方法有效
申请号: | 201910753174.8 | 申请日: | 2019-08-15 |
公开(公告)号: | CN110570845B | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 熊盛武;李梦;林泽华;徐珊;李小其;董元杰;路雄博;刁月月 | 申请(专利权)人: | 武汉理工大学;武汉水象电子科技有限公司 |
主分类号: | G10L15/20 | 分类号: | G10L15/20;G10L15/06;G10L15/16 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 王琪 |
地址: | 430070 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 不变 特征 语音 识别 方法 | ||
1.一种基于域不变特征的语音识别方法,其特征在于,该方法包括如下步骤:
步骤一,构建训练数据集,包括采集不同噪声环境下的语音数据和标注语音对应的内容文本;
步骤二,利用步骤一构建的训练数据集训练基于域不变特征的语音识别模型,所述基于域不变特征的语音识别模型包括语音域不变特征提取模型和语音识别声学模型;
将不同噪声环境看作不同域,域不变特征指的是只包含语义内容的语音特征,所述语音域不变特征提取模型结构包含两个编码网络和一个解码网络,分别记为Enc1、Enc2和Dec;其中Enc2用于编码噪声域特征,包含多层Conv2D二维卷积层和一个重参数层,其输入为定长语音特征帧序列,即语音分段,输出为该分段对应的特征向量;Enc1用于编码域不变特征,包含两层LSTM循环神经网络层和一个重参数层,其输入为上述相同的语音分段和噪声域特征向量,输出为域不变特征向量;Dec用于对编码的特征进行解码,包含两层LSTM循环神经网络层和一个重参数层,其输入为上述噪声域特征向量和域不变特征向量,输出为重构的语音特征分段;
所述语音识别声学模型包含两层Conv2D二维卷积层、5层双向GRU循环神经网络层和1层输出维度为标签数L的全连接层;
步骤三,利用训练好的基于域不变特征的语音识别模型,进行真实环境下语音识别。
2.如权利要求1所述的一种基于域不变特征的语音识别方法,其特征在于:步骤一的具体实现方式如下,
(1.1)采集不同噪声环境下的语音数据
采集方式有直接录制和人工合成两种:直接录制是通过在具有背景噪声的自然场景中直接录制语音;人工合成是通过在无背景噪声的安静环境下录制清晰语音,然后在清晰语音上叠加噪声语音;通过上述数据采集过程最终得到的包含不同噪声的无标注语音数据集,记为X={X1,...,XM},其中,M为噪声类型数量,为第i类带噪语音集合,包含Ni条语音;
(1.2)为步骤(1.1)采集到的语音数据标注内容文本
人工对每一条语音标注对应的内容文本,首先根据语音内容类型确定标注元素:英文语音以单词为标注元素,中文语音以字为标注元素,得到标注训练数据集其中yi,j为语音xi,j对应的文本,其中,1≤M1≤M。
3.如权利要求2所述的一种基于域不变特征的语音识别方法,其特征在于:所述Enc2中Conv2D二维卷积层的步长为2,卷积核大小为3×3,卷积核数为32;Enc1和Dec中LSTM循环神经网络层的单元数为256。
4.如权利要求3所述的一种基于域不变特征的语音识别方法,其特征在于:语音识别声学模型中Conv2D二维卷积层的步长为2,卷积核大小为21×11,卷积核数为32;双向GRU循环神经网络层的单元数为800。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工大学;武汉水象电子科技有限公司,未经武汉理工大学;武汉水象电子科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910753174.8/1.html,转载请声明来源钻瓜专利网。