[发明专利]一种基于深度神经网络的多模态语音识别方法在审
申请号: | 201910284551.8 | 申请日: | 2019-04-10 |
公开(公告)号: | CN110111783A | 公开(公告)日: | 2019-08-09 |
发明(设计)人: | 喻梅;程旻余童;高洁;刘志强;徐天一;于瑞国;李雪威;胡晓凯 | 申请(专利权)人: | 天津大学 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/25;G10L15/06;G10L25/30 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李林娟 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多模态 神经网络 声学模型 语音识别 错误率 图像 唇部 拼接 句子 自动语音识别系统 隐马尔科夫模型 多模态数据 解码 彩色图像 发音过程 加窗分帧 句子级别 深度数据 深度图像 图像特征 音频特征 音频信号 音频信息 语音特征 构建 建模 维度 音素 语料 录制 文本 汉语 测试 中文 | ||
本发明公开了一种基于深度神经网络的多模态语音识别方法,包括以下步骤:基于汉语音素构建句子级别的语料文本,并录制多模态数据,包括:彩色图像、深度图像、深度数据以及音频信息;获取说话人发音过程中的唇部图像与音频信号,对唇部图像进行加窗分帧,对图像进行DCT变换及PCA降维,选取合适维度的图像特征与音频的MFCC特征做特征拼接,形成新的多模态音频特征;搭建中文的自动语音识别系统,使用深度神经网络‑隐马尔科夫模型进行声学模型的建模,并选取多模态语音特征拼接作为输入,进行训练与测试解码,降低字和句子的识别错误率。本发明降低了声学模型在词和句子的识别错误率。
技术领域
本发明涉及语音识别、声学建模和深度学习领域,尤其涉及一种基于深度神经网络的多模态语音识别方法。
背景技术
目前在相关技术中,语音作为人与计算机间最自然的交互途径,有着得天独厚的优势,这也使得语音识别成为热门的研究领域。无论是车载语音识别导航,智能手机上的语音助手,都显示了其巨大的应用价值和未来前景。
然而,相较于人类的感官听觉能力,语音识别技术在识别的准确性以及整体性能的鲁棒性上仍存在着诸多缺陷,其识别的准确性依赖于自身的声学模型,同时容易受到外界环境噪声的干扰。
发明内容
本发明提供了一种基于深度神经网络的多模态语音识别方法,本发明针对汉语连续语音识别在噪声环境下识别效果不佳的问题,提出了利用视觉信息补充语音信息,进行多模态语音特征融合,并使用DNN-HMM模型(深度神经网络-隐马尔科夫模型)进行声学模型建模,在实验室录制的中文语料库上进行实验解码,降低了声学模型在词和句子的识别错误率,详见下文描述:
一种基于深度神经网络的多模态语音识别方法,所述方法包括以下步骤:
基于汉语音素构建句子级别的语料文本,并录制多模态数据,包括:彩色图像、深度图像、深度数据以及音频信息;
获取说话人发音过程中的唇部图像与音频信号,对唇部图像进行加窗分帧,对图像进行DCT变换及PCA降维,选取合适维度的图像特征与音频的MFCC特征做特征拼接,形成新的多模态音频特征;
搭建中文的自动语音识别系统,使用深度神经网络-隐马尔科夫模型进行声学模型的建模,并选取多模态语音特征拼接作为输入,进行训练与测试解码,降低字和句子的识别错误率。
所述深度神经网络-隐马尔科夫模型的训练具体为:
基于受限玻尔兹曼机,对每一层进行预训练,训练算法是具有1步马尔可夫链蒙特卡罗采样的对比发散算法,第一个受限玻尔兹曼机采用高斯-伯努利单元,其余的RBM采用伯努利-伯努利单元;
训练属于无监督训练,只需提供输入数据目录,将训练数据的方差与小批量中的重建数据的方差进行比较。
本发明提供的技术方案的有益效果是:
1、本方法基于汉语音素的平衡,设计了句子级别的中文语料文本,并使用Kinect设备录制了话者发音过程中的彩色图像、深度图像、面部特征点数据、音频数据,作为后续实验的训练、测试数据;
2、本方法针对单模态的语音信息容易受到噪声干扰的问题,提出了结合图像信息从视觉角度来补充音频信息,对话者发音过程的唇部图像,与音频提取的特征进行特征融合,形成新的多模态音频特征;
3、本方法在Kaldi平台上搭建自动语音识别系统,并结合深度学习技术使用深度神经网络来进行声学模型的建模,并使用录制的中文连续语音进行训练与测试解码,降低了字和句子的识别错误率。
附图说明
图1为现有技术提供的语音识别系统架构的示意图;
图2为本发明提供的基于深度神经网络的多模态语音识别方法的示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910284551.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:语音交互方法及设备
- 下一篇:一种夜间无人店的顾客远程协助的处理方法及系统