[发明专利]多模态语音识别方法、系统及计算机可读存储介质有效

申请号：	202110913351.1	申请日：	2021-08-10
公开（公告）号：	CN113744731B	公开（公告）日：	2023-07-21
发明（设计）人：	林峰;刘天天;高铭;王超;巴钟杰;韩劲松;许文曜;任奎	申请（专利权）人：	浙江大学
主分类号：	G10L15/20	分类号：	G10L15/20;G10L15/16;G10L15/02
代理公司：	北京高沃律师事务所 11569	代理人：	王爱涛
地址：	310058 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	多模态语音识别方法系统计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种多模态语音识别方法，其特征在于，包括：

获取目标毫米波信号和目标音频信号；所述目标毫米波信号为毫米波雷达接收到的反射信号，其中，包含喉咙振动信息；

当所述目标毫米波信号和所述目标音频信号均包含目标用户对应的人声信息时，计算第一对数梅尔频谱系数和第二对数梅尔频谱系数；所述第一对数梅尔频谱系数是根据所述目标毫米波信号确定的，所述第二对数梅尔频谱系数是根据所述目标音频信号确定的；

将所述第一对数梅尔频谱系数和所述第二对数梅尔频谱系数输入到融合网络中，以确定目标融合特征；所述融合网络至少包括校准模块和映射模块；所述校准模块用于根据所述目标音频信号对所述目标毫米波信号进行特征校准处理，根据所述目标毫米波信号对所述目标音频信号进行特征校准处理，以获取校准后的毫米波特征和校准后的音频特征；所述映射模块用于对所述校准后的毫米波特征和所述校准后的音频特征进行融合处理，以得到目标融合特征；

将所述目标融合特征输入到语义特征网络中，以确定所述目标用户对应的语音识别结果。

2.根据权利要求1所述的一种多模态语音识别方法，其特征在于，所述获取目标毫米波信号和目标音频信号，具体包括：

获取毫米波雷达采集的目标毫米波信号；

获取麦克风采集的目标音频信号。

3.根据权利要求1所述的一种多模态语音识别方法，其特征在于，所述当所述目标毫米波信号和所述目标音频信号均包含目标用户对应的人声信息时，计算第一对数梅尔频谱系数和第二对数梅尔频谱系数，具体包括：

判断所述目标毫米波信号和所述目标音频信号是否均包括人声信息，得到第一判断结果；

若所述第一判断结果表示所述目标毫米波信号和所述目标音频信号均包括人声信息，则判断所述目标毫米波信号和所述目标音频信号是否均来自目标用户，得到第二判断结果；

若所述第二判断结果表示所述目标毫米波信号和所述目标音频信号均来自目标用户，则对所述目标毫米波信号和所述目标音频信号分别进行短时傅里叶变换处理，以确定第一对数梅尔频谱系数和第二对数梅尔频谱系数。

4.根据权利要求3所述的一种多模态语音识别方法，其特征在于，所述判断所述目标毫米波信号和所述目标音频信号是否均包括人声信息，得到第一判断结果，具体包括：

对所述所述目标毫米波信号和所述目标音频信号分别进行预处理；

对预处理后的目标毫米波信号进行快速傅里叶变换处理以提取毫米波相位信号；

对所述毫米波相位信号进行差分处理以提取毫米波相位差信号；