[发明专利]一种基于深度神经网络的多模态语音识别方法在审

专利信息
申请号: 201910284551.8 申请日: 2019-04-10
公开(公告)号: CN110111783A 公开(公告)日: 2019-08-09
发明(设计)人: 喻梅;程旻余童;高洁;刘志强;徐天一;于瑞国;李雪威;胡晓凯 申请(专利权)人: 天津大学
主分类号: G10L15/22 分类号: G10L15/22;G10L15/25;G10L15/06;G10L25/30
代理公司: 天津市北洋有限责任专利代理事务所 12201 代理人: 李林娟
地址: 300072*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于深度神经网络的多模态语音识别方法,包括以下步骤:基于汉语音素构建句子级别的语料文本,并录制多模态数据,包括:彩色图像、深度图像、深度数据以及音频信息;获取说话人发音过程中的唇部图像与音频信号,对唇部图像进行加窗分帧,对图像进行DCT变换及PCA降维,选取合适维度的图像特征与音频的MFCC特征做特征拼接,形成新的多模态音频特征;搭建中文的自动语音识别系统,使用深度神经网络‑隐马尔科夫模型进行声学模型的建模,并选取多模态语音特征拼接作为输入,进行训练与测试解码,降低字和句子的识别错误率。本发明降低了声学模型在词和句子的识别错误率。
搜索关键词: 多模态 神经网络 声学模型 语音识别 错误率 图像 唇部 拼接 句子 自动语音识别系统 隐马尔科夫模型 多模态数据 解码 彩色图像 发音过程 加窗分帧 句子级别 深度数据 深度图像 图像特征 音频特征 音频信号 音频信息 语音特征 构建 建模 维度 音素 语料 录制 文本 汉语 测试 中文
【主权项】:
1.一种基于深度神经网络的多模态语音识别方法,其特征在于,所述方法包括以下步骤:基于汉语音素构建句子级别的语料文本,并录制多模态数据,包括:彩色图像、深度图像、深度数据以及音频信息;获取说话人发音过程中的唇部图像与音频信号,对唇部图像进行加窗分帧,对图像进行DCT变换及PCA降维,选取合适维度的图像特征与音频的MFCC特征做特征拼接,形成新的多模态音频特征;搭建中文的自动语音识别系统,使用深度神经网络‑隐马尔科夫模型进行声学模型的建模,并选取多模态语音特征拼接作为输入,进行训练与测试解码,降低字和句子的识别错误率。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910284551.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top