[发明专利]一种基于深度神经网络的多模态语音识别方法在审
申请号: | 201910284551.8 | 申请日: | 2019-04-10 |
公开(公告)号: | CN110111783A | 公开(公告)日: | 2019-08-09 |
发明(设计)人: | 喻梅;程旻余童;高洁;刘志强;徐天一;于瑞国;李雪威;胡晓凯 | 申请(专利权)人: | 天津大学 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/25;G10L15/06;G10L25/30 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李林娟 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多模态 神经网络 声学模型 语音识别 错误率 图像 唇部 拼接 句子 自动语音识别系统 隐马尔科夫模型 多模态数据 解码 彩色图像 发音过程 加窗分帧 句子级别 深度数据 深度图像 图像特征 音频特征 音频信号 音频信息 语音特征 构建 建模 维度 音素 语料 录制 文本 汉语 测试 中文 | ||
1.一种基于深度神经网络的多模态语音识别方法,其特征在于,所述方法包括以下步骤:
基于汉语音素构建句子级别的语料文本,并录制多模态数据,包括:彩色图像、深度图像、深度数据以及音频信息;
获取说话人发音过程中的唇部图像与音频信号,对唇部图像进行加窗分帧,对图像进行DCT变换及PCA降维,选取合适维度的图像特征与音频的MFCC特征做特征拼接,形成新的多模态音频特征;
搭建中文的自动语音识别系统,使用深度神经网络-隐马尔科夫模型进行声学模型的建模,并选取多模态语音特征拼接作为输入,进行训练与测试解码,降低字和句子的识别错误率。
2.根据权利要求1所述的一种基于深度神经网络的多模态语音识别方法,其特征在于,所述深度神经网络-隐马尔科夫模型的训练具体为:
基于受限玻尔兹曼机,对每一层进行预训练,训练算法是具有1步马尔可夫链蒙特卡罗采样的对比发散算法,第一个受限玻尔兹曼机采用高斯-伯努利单元,其余的RBM采用伯努利-伯努利单元;
训练属于无监督训练,只需提供输入数据目录,将训练数据的方差与小批量中的重建数据的方差进行比较。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910284551.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:语音交互方法及设备
- 下一篇:一种夜间无人店的顾客远程协助的处理方法及系统