[发明专利]多模态语音识别方法、系统及计算机可读存储介质有效
申请号: | 202110913351.1 | 申请日: | 2021-08-10 |
公开(公告)号: | CN113744731B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 林峰;刘天天;高铭;王超;巴钟杰;韩劲松;许文曜;任奎 | 申请(专利权)人: | 浙江大学 |
主分类号: | G10L15/20 | 分类号: | G10L15/20;G10L15/16;G10L15/02 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 王爱涛 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多模态 语音 识别 方法 系统 计算机 可读 存储 介质 | ||
1.一种多模态语音识别方法,其特征在于,包括:
获取目标毫米波信号和目标音频信号;所述目标毫米波信号为毫米波雷达接收到的反射信号,其中,包含喉咙振动信息;
当所述目标毫米波信号和所述目标音频信号均包含目标用户对应的人声信息时,计算第一对数梅尔频谱系数和第二对数梅尔频谱系数;所述第一对数梅尔频谱系数是根据所述目标毫米波信号确定的,所述第二对数梅尔频谱系数是根据所述目标音频信号确定的;
将所述第一对数梅尔频谱系数和所述第二对数梅尔频谱系数输入到融合网络中,以确定目标融合特征;所述融合网络至少包括校准模块和映射模块;所述校准模块用于根据所述目标音频信号对所述目标毫米波信号进行特征校准处理,根据所述目标毫米波信号对所述目标音频信号进行特征校准处理,以获取校准后的毫米波特征和校准后的音频特征;所述映射模块用于对所述校准后的毫米波特征和所述校准后的音频特征进行融合处理,以得到目标融合特征;
将所述目标融合特征输入到语义特征网络中,以确定所述目标用户对应的语音识别结果。
2.根据权利要求1所述的一种多模态语音识别方法,其特征在于,所述获取目标毫米波信号和目标音频信号,具体包括:
获取毫米波雷达采集的目标毫米波信号;
获取麦克风采集的目标音频信号。
3.根据权利要求1所述的一种多模态语音识别方法,其特征在于,所述当所述目标毫米波信号和所述目标音频信号均包含目标用户对应的人声信息时,计算第一对数梅尔频谱系数和第二对数梅尔频谱系数,具体包括:
判断所述目标毫米波信号和所述目标音频信号是否均包括人声信息,得到第一判断结果;
若所述第一判断结果表示所述目标毫米波信号和所述目标音频信号均包括人声信息,则判断所述目标毫米波信号和所述目标音频信号是否均来自目标用户,得到第二判断结果;
若所述第二判断结果表示所述目标毫米波信号和所述目标音频信号均来自目标用户,则对所述目标毫米波信号和所述目标音频信号分别进行短时傅里叶变换处理,以确定第一对数梅尔频谱系数和第二对数梅尔频谱系数。
4.根据权利要求3所述的一种多模态语音识别方法,其特征在于,所述判断所述目标毫米波信号和所述目标音频信号是否均包括人声信息,得到第一判断结果,具体包括:
对所述所述目标毫米波信号和所述目标音频信号分别进行预处理;
对预处理后的目标毫米波信号进行快速傅里叶变换处理以提取毫米波相位信号;
对所述毫米波相位信号进行差分处理以提取毫米波相位差信号;
将预处理后的目标音频信号与所述毫米波相位差信号相乘,以获得目标乘积分量;
计算所述目标乘积分量的谱熵;
判断所述谱熵是否大于设定阈值;
其中,当所述谱熵大于设定阈值时,表明所述目标毫米波信号和所述目标音频信号均包括人声信息。
5.根据权利要求4所述的一种多模态语音识别方法,其特征在于,所述判断所述目标毫米波信号和所述目标音频信号是否均来自目标用户,具体包括:
对所述目标乘积分量进行处理以提取目标线性预测编码分量;
将所述目标线性预测编码分量输入到训练好的一类支持向量机中,以判断所述目标毫米波信号和所述目标音频信号是否均来自目标用户;
其中,所述训练好的一类支持向量机是根据训练数据和一类支持向量机确定的;所述训练数据包括多个标定乘积分量以及每个所述标定乘积分量对应的标签;所述标签为标定用户;所述标定乘积分量是根据所述标定用户对应的毫米波信号和音频信号确定的乘积分量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110913351.1/1.html,转载请声明来源钻瓜专利网。