[发明专利]一种基于多模态融合的管制话音复述一致性校验方法在审
申请号: | 202110270332.1 | 申请日: | 2021-03-12 |
公开(公告)号: | CN113053366A | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 王煊;彭佳;蒋伟煜;徐秋程;丁辉;严勇杰 | 申请(专利权)人: | 中国电子科技集团公司第二十八研究所 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16;G10L25/24;G10L25/51 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 于瀚文;胡建华 |
地址: | 210007 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多模态 融合 管制 话音 复述 一致性 校验 方法 | ||
1.一种基于多模态融合的管制话音复述一致性校验方法,其特征在于,包括如下步骤:
步骤1,采集管制话音与复述话音数据,形成正样本训练数据;根据管制话音产生错误的复述话音,形成负样本训练数据;使用语音识别技术对收集到的管制话音与复述话音训练数据进行处理,生成文本数据,文本数据包括管制文本数据与复述文本数据;
步骤2,构建单语音单文本多模态融合模型,将文本数据输入单语音单文本多模态融合模型,输出概率分布;
步骤3,构建双语音双文本多模态融合模型,将文本数据输入双语音双文本多模态融合模型,输出概率分布;
步骤4,构建全连接神经网络分类模型,将步骤2得到的概率分布和步骤3得到的概率分布输入全连接神经网络分类模型,输出管制话音复述一致性校验结果。
2.根据权利要求1所述的方法,其特征在于,步骤2中,所述单语音单文本多模态融合模型包括第一高层特征提取层、基于注意力机制的第一特征对齐层、第一多模态特征融合层和第一语义一致性校验层。
3.根据权利要求2所述的方法,其特征在于,步骤2中,所述构建单语音单文本多模态融合模型具体包括:
步骤2-1,构建第一高层特征提取层,得到高层特征:将收集得到的管制话音与复述话音训练数据作为输入,对训练数据分帧,将长度为n秒的管制话音数据分成m帧,每一帧信号的长度是分别对每一帧信号做快速傅里叶变换处理,从时域表示转换成频谱表示,再使用梅尔滤波器处理信号,得到基于梅尔倒谱系数的序列表示方法,即得到语音信号的低层特征;
对文本数据进行词嵌入处理,通过分词生成词语序列,然后使用Word2Vec方法将每个词转换成词向量的形式,组合形成文本数据的向量表示方法,即得到文本数据的低层特征;
构建双向长短期记忆网络LSTM层,该层分别对语音信号的低层特征和文本数据的底层特征进行提炼,形成语音信号的高层特征和文本数据的高层特征;
步骤2-2,构建基于注意力机制的第一特征对齐层,第一特征对齐层使用一层全连接神经网络对由双向长短期记忆网络LSTM层生成的语音特征和文本特征进行计算,得到它们之间的注意力值分布:设定经过处理后的语音高层特征和文本高层特征分别是和其中R是实数集合,mS和mT分别表示语音和文本特征序列的长度,l表示特征维度,则通过全连接层计算得到的注意力值如下所示:
aij=softmax(E′S·E′TT) (1)
其中aij表示第i帧语音数据与第j个文本中的字之间的相似度,使用所述注意力值分布对语音特征进行加权处理,实现对齐操作,作为输出特征:aij·E′S;
步骤2-3,将输出的加权特征输入双向长短期记忆网络LSTM层,将经过双向长短期记忆网络LSTM层处理后得到的文本高层特征和步骤2-2得到的经过加权对齐后的语音高层特征进行拼接,得到拼接结果E=[E′T,aij·E′S],将E作为模型的输入,输出两种模态数据融合后的高层特征;
步骤2-4,构建前向全连接神经网络作为输出层,对语义一致性进行校验,即:
y=softmax(W·E+b) (2)
其中,y∈R1×2表示输出判断结果,即分别为一致或不一致的概率分布,W∈Rl×2是全连接层的权重,b∈R1×2是全连接层的偏置参数,将步骤2-3输出的高层特征作为该层输入,输出基于二值概率分布的分类结果,分别表示语义一致和语义不一致的概率分布。
4.根据权利要求3所述的方法,其特征在于,步骤3中,所述双语音双文本多模态融合模型包括第二高层特征提取层、基于注意力机制的第二特征对齐层、第二多模态特征融合层和输出层。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第二十八研究所,未经中国电子科技集团公司第二十八研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110270332.1/1.html,转载请声明来源钻瓜专利网。