[发明专利]多模态语音分离方法、训练方法及相关装置在审
申请号: | 202111122074.9 | 申请日: | 2021-09-24 |
公开(公告)号: | CN113782048A | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 潘峰 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L25/30;G10L25/57;G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 刘希 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多模态 语音 分离 方法 训练 相关 装置 | ||
1.一种多模态语音分离方法,其特征在于,包括:
获得包含目标用户的唇部视频信息和音频信息;
根据所述唇部视频信息、所述音频信息和训练后的多模态语音分离网络获得所述目标用户的语音;其中,所述多模态语音分离网络中包括唇形特征提取子网络,且在训练所述多模态语音分离网络之前采用无监督训练集对所述唇形特征提取子网络进行预训练。
2.根据权利要求1所述的多模态语音分离方法,其特征在于,所述根据所述唇部视频信息、所述音频信息和训练后的多模态语音分离网络获得所述目标用户的语音的步骤,包括:
根据所述唇部视频信息、所述音频信息和训练后的多模态语音分离网络获得所述目标用户的第一语音存在概率;
根据所述第一语音存在概率从所述音频信息中获得所述目标用户的语音。
3.根据权利要求1所述的多模态语音分离方法,其特征在于,所述多模态语音分离网络的训练过程包括:
采用无监督训练集对包含所述唇形特征提取子网络的第一唇形识别网络进行训练;
利用训练后的所述第一唇形识别网络中的所述唇形特征提取子网络的参数更新第二唇形识别网络中唇形特征提取子网络的参数,并采用有监督训练集对所述第二唇形识别网络进行训练;
利用训练后的所述第二唇形识别网络中的所述唇形特征提取子网络的参数更新所述多模态语音分离网络中所述唇形特征提取子网络的参数,并采用分离网络训练集训练所述多模态语音分离网络。
4.根据权利要求3所述的多模态语音分离方法,其特征在于,所述无监督训练集包括多组相互对应的单人语音和单人唇部视频;所述采用无监督训练集对包含所述唇形特征提取子网络的第一唇形识别网络进行训练的步骤,包括:
对所述单人唇部视频进行特征提取以获得唇形特征序列、以及对与所述单人唇部视频对应的单人语音进行特征提取以获得音频特征序列;
根据所述唇形特征序列和所述音频特征序列获得损失,并根据所述损失调整所述第一唇形识别网络中所述唇形特征提取子网络的参数。
5.根据权利要求4所述的多模态语音分离方法,其特征在于,
所述第一唇形识别网络包括所述唇形特征提取子网络和语音特征提取子网络;其中,所述唇形特征提取子网络用于对所述单人唇部视频进行特征提取以获得唇形特征序列,所述语音特征提取子网络用于对与所述单人唇部视频对应的单人语音进行特征提取以获得音频特征序列;且所述语音特征提取子网络中的参数预先训练固定。
6.根据权利要求3所述的多模态语音分离方法,其特征在于,所述有监督训练集包括多个单人唇部视频,所述单人唇部视频中的每个视频帧设置有对应的声学标签;其中,唇形相似度超过阈值的视频帧具有相同的所述声学标签;所述采用有监督训练集对所述第二唇形识别网络进行训练的步骤,包括:
对所述单人唇部视频进行特征提取以获得每个视频帧的唇形特征;
根据每个所述视频帧的唇形特征获得对应的预测标签;
获得所述预测标签与对应的所述声学标签之间的损失,并根据所述损失调整所述第二唇形识别网络的参数。
7.根据权利要求6所述的多模态语音分离方法,其特征在于,
所述第二唇形识别网络包括所述唇形特征提取子网络和全连接层;其中,所述唇形特征提取子网络用于对所述单人唇部视频进行特征提取以获得每个视频帧的唇形特征;所述全连接层用于根据每个所述视频帧的唇形特征获得对应的预测标签;其中,所述单人唇部视频所对应的语种中所有音素根据唇形相似度聚类后的声学标签的总个数与所述全连接层中节点的总个数相同。
8.根据权利要求5所述的多模态语音分离方法,其特征在于,所述有监督训练集中的每个所述单人唇部视频具有对应的单人语音,且所述单人语音具有文本标注;所述对所述单人唇部视频进行特征提取以获得每个视频帧的唇形特征的步骤之前,包括:
将所述单人唇部视频和对应的文本标注进行强制对齐以获得每个视频帧的音素标签;
将唇形相似度超过阈值的多个音素标签设置为同一个声学标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111122074.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:触摸屏控制装置及触摸屏控制方法
- 下一篇:一种杆塔拉线检测保养装置