[发明专利]一种唇语关键词检测方法、装置、设备及存储介质有效
申请号: | 202010827853.8 | 申请日: | 2020-08-17 |
公开(公告)号: | CN111914803B | 公开(公告)日: | 2023-06-13 |
发明(设计)人: | 杜吉祥;陈雪娟;张洪博;翟传敏 | 申请(专利权)人: | 华侨大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/74;G06V10/82;G06V40/20;G06V10/774;G06V10/764;G06N3/0464;G06F16/732 |
代理公司: | 厦门智慧呈睿知识产权代理事务所(普通合伙) 35222 | 代理人: | 陈晓思 |
地址: | 361000 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关键词 检测 方法 装置 设备 存储 介质 | ||
本发明提供一种唇语关键词检测方法、装置、设备及存储介质,其中方法包括:通过DNN方法训练,得到一个二分类的DNN模型;基于所述DNN模型,判断待检测的唇语视频中的每帧唇部图片的讲话状态,分离出所述唇语视频的讲话片段和非讲话片段;提取所述讲话片段,并通过唇语识别模型提取查询样例和讲话片段的每一帧唇部图片的特征,作为后验概率特征;基于所述后验概率特征构建相似度矩阵图;通过卷积神经网络分类模型对所述相似度矩阵图进行二分类,判断唇语视频中是否存在关键词。本发明通过端点检测、唇语识别器提取特征和构建相似度矩阵图,可降低未讲话片段对唇语关键词检测性能的影响,提高关键词检测的性能。
技术领域
本发明涉及人工智能领域,具体而言,涉及一种唇语关键词检测、装置、设备及存储介质。
背景技术
近年来经济建设发展迅猛,信息技术与科技水平不断提高,网络速度不断提高,存储成本不断降低,监控摄像头遍布各地。面对如此多的监控摄像头,大部分监控受限于成本或技术,无法获取用户说话的语音内容,从而无法根据语音识别讲话内容,而唇语识别只要“看到”嘴形就能进行内容识别,在安防领域可以发挥出重大作用。然而从对监控视频的利用层面来说,往往并不需要进行完整的唇语识别,知道完整的说话内容,需要的只是几个关键词的识别检测。唇语关键词检测在安防领域能够起到重要的作用。但是,唇语识别技术在实际应用中还存在很多困难,因此,对这些监控视频进行准确的唇语识别是一件比较困难的事情。
目前,唇语关键词检测的研究较少,唇语关键词检测的数据集中,有一些未讲话的片段,这些片段若是比较长,会对关键词检测产生影响,但是,关键词检测在语音识别这个领域已经有了长足的发展。在语音识别领域中,关键词检测方法主要有三类:基于补白模型的方法、基于样例的方法和基于大词汇量连续语音识别系统的方法。基于样例的语音关键词检测方法,输入的查询样例是少量含有关键词样例的语音片段,与测试语音片段进行相似度计算,如果相似度超过某个阈值,则认为测试音频中含有关键词。常用的一类方法是基于动态时间规整(dynamic time warping,DTW)的方法,使用DTW算法来计算两个音频特征序列之间的相似度,早期常常使用声学特征作为音频特征,但是容易受环境、信道、讲话人等外部因素的影响。后来引入了后验概率特征,降低了讲话人和环境对关键词检测系统影响。对于后验概率特征的计算,通常通过搭建音素解码器将关键词音频与测试音频转换成固定长度的嵌入向量。早期使用人工神经网络,后来,随着深度学习的发展,通常使用深度神经网络、LSTM等搭建音素识别器。
发明内容
本发明的目的在于提供一种唇语关键词检测方法、装置、设备及存储介质用以解决上述问题。
本发明实施例提供了一种唇语关键词检测方法,其包括:
通过DNN方法训练,得到一个二分类的DNN模型;
基于所述DNN模型,判断待检测的唇语视频中的每帧唇部图片的讲话状态,分离出所述唇语视频的讲话片段和非讲话片段;
提取所述讲话片段,并通过唇语识别模型提取查询样例和讲话片段的每一帧唇部图片的特征,作为后验概率特征;
基于所述后验概率特征构建相似度矩阵图;
通过卷积神经网络分类模型对所述相似度矩阵图进行二分类,判断唇语视频中是否存在关键词。
进一步的,所述整个唇语视频分为8个状态:
未知状态、讲话开始状态、讲话状态、讲话结束状态、非讲话开始状态、非讲话状态、非讲话结束状态、结束状态;其中:
在所述讲话开始状态之前和所述讲话结束状态之后,补一段非讲话帧,以防止判断过程中的误判。
进一步的,所述唇语识别模型具体用于:
通过三维卷积和二维Densenet提取唇部图片序列的视觉特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华侨大学,未经华侨大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010827853.8/2.html,转载请声明来源钻瓜专利网。