[发明专利]一种基于神经网络和逆熵加权的音视频关键词识别方法和装置有效

申请号：	201810752379.X	申请日：	2018-07-10
公开（公告）号：	CN109147763B	公开（公告）日：	2020-08-11
发明（设计）人：	丁润伟;庞程;刘宏	申请（专利权）人：	深圳市感动智能科技有限公司;北京大学深圳研究生院
主分类号：	G10L15/05	分类号：	G10L15/05;G10L15/06;G10L15/16;G10L15/25;G10L25/03;G10L25/30
代理公司：	北京君尚知识产权代理有限公司 11200	代理人：	邱晓锋
地址：	518000 广东省深圳市南山区***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于神经网络加权视频关键词识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于神经网络和逆熵加权的音视频关键词识别方法，包括以下步骤：

1)录制关键词音视频，标注出所述音视频中关键词和非关键词语音的起止时间点，根据所述关键词和非关键词语音的起止时间点提取所述关键词和所述非关键词的声学特征向量序列和视觉特征向量序列，根据所述关键词和所述非关键词的声学特征向量序列和视觉特征向量序列通过训练神经网络得到所述关键词和所述非关键词的声学神经网络模型和视觉神经网络模型；

2)根据不同声学噪声环境下的音视频得到声学似然度和视觉似然度，根据所述声学似然度和所述视觉似然度通过计算逆熵得到声学模态可靠度、视觉模态可靠度，根据所述声学模态可靠度和所述视觉模态可靠度得到最优音视频融合权重；

3)根据步骤1)所述声学神经网络模型和所述视觉神经网络模型，以及步骤2)所述最优音视频融合权重，对待测音视频进行关键词识别；

步骤1)包含如下步骤：

1-1)根据包含关键词的抄本同步录制音视频，得到多个完整的语音段和视频段；

1-2)标注出步骤1-1)中所述语音段中关键词和非关键词语音的起止时间点；

1-3)根据步骤1-2)中所述关键词和非关键词语音的起止时间点，分帧、加窗后提取所述关键词和所述非关键词的声学特征向量序列和视觉特征向量序列；

1-4)根据步骤1-3)中所述关键词和所述非关键词的语音声学特征向量序列和视觉特征向量序列，训练所述关键词和所述非关键词的声学神经网络模型和视觉神经网络模型；

步骤2)包含如下步骤：

2-1)根据已标注关键词的不同噪声环境下的音视频段，提取所述音视频段的声学特征向量序列和视觉特征向量序列；

2-2)将步骤2-1)中所述声学特征向量序列输入步骤1-4)中所有关键词的声学神经网络模型，输出得到声学似然度；将步骤2-1)中所述视觉特征向量序列输入步骤1-4)中所有关键词的视觉神经网络模型，输出得到视觉似然度；

2-3)根据步骤2-2)中所述声学似然度和所述视觉似然度，得到声学模态可靠度和视觉模态可靠度；

2-4)根据步骤2-3)中所述声学模态可靠度和所述视觉模态可靠度得到最优音视频融合权重；