[发明专利]一种基于视频分析的说话识别方法、系统、设备及介质有效
申请号: | 202110587534.9 | 申请日: | 2021-05-27 |
公开(公告)号: | CN113177531B | 公开(公告)日: | 2023-07-07 |
发明(设计)人: | 黄欢;尹士朝 | 申请(专利权)人: | 广州广电运通智能科技有限公司;广州广电运通金融电子股份有限公司 |
主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V20/40;G10L15/22 |
代理公司: | 杭州创智卓英知识产权代理事务所(普通合伙) 33324 | 代理人: | 张超 |
地址: | 510000 广东省广州市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 视频 分析 说话 识别 方法 系统 设备 介质 | ||
本发明提供一种基于视频分析的说话识别方法,包括对目标视频数据中每一视频帧进行裁剪处理以及灰度化处理,得到每一视频帧对应的输入图像;对所有输入图像进行人脸检测处理,得到人脸检测框;对所有输入图像对应的人脸检测框进行筛选,将符合预设人脸筛选规则的每一视频帧对应的人脸检测框作为这一帧的最终人脸检测框;根据最终人脸检测框中嘴唇轮廓和脸部关键点计算出每一最终人脸检测框对应的特征结果,将含有若干特征结果输入至预设说话识别模型中进行识别,得到与待识别人物对应的说话识别结果。本发明的一种基于视频分析的说话识别方法,使得到的说话识别结果更加精准,而且可以适应待识别人物说话时的不同形态。
技术领域
本发明涉及智能交互领域,尤其涉及一种基于视频分析的说话识别方法、系统、设备及介质。
背景技术
在智能交互领域,在启动智能交互系统时,需要先判断待识别人物是否说话,当待识别人物处于说话状态时,智能交互系统启动拾音功能并执行后续的语音交互功能。目前智能交互领域对于待识别人物是否处于说话状态的判断为基于唇部特征点结合简单的阈值分析来判断是否说话或通过音频分析再结合唇部特征分析来判断是否说话。上述的说话识别过程前者阈值分析无法做到模型的鲁棒性,不适用于复杂多变的场景;后者则需要借助音频信息进一步辅助判断,显得不够智能化。因此传统的智能交互系统中对于视频中人物的说话识别存在一定局限性而且不够智能化。
发明内容
为了克服现有技术的不足,本发明的目的之一在于提供一种基于视频分析的说话识别方法,其能解决传统的智能交互系统中对于待识别人物的说话识别存在一定局限性而且不够智能化的问题。
本发明的目的之二在于提供一种基于视频分析的说话识别系统,其能解决传统的智能交互系统中对于待识别人物的说话识别存在一定局限性而且不够智能化的问题。
本发明的目的之三在于提供一种电子设备,其能解决传统的智能交互系统中对于待识别人物的说话识别存在一定局限性而且不够智能化的问题。
本发明的目的之四在于提供一种计算机可读存储介质,其能解决传统的智能交互系统中对于待识别人物的说话识别存在一定局限性而且不够智能化的问题。
本发明的目的之一采用以下技术方案实现:
一种基于视频分析的说话识别方法,所述方法应用于智能交互系统中,包括以下步骤:
读取视频数据,读取智能交互系统中摄像头采集到的目标视频数据;
图像预处理,对所述目标视频数据中每一视频帧进行裁剪处理以及灰度化处理,得到每一视频帧对应的输入图像;
人脸检测,对每一视频帧对应的输入图像进行人脸检测处理,得到与每一输入图像对应的人脸检测框;
人脸筛选,对每一视频帧对应的输入图像对应的人脸检测框进行筛选,将符合预设人脸筛选规则的每一视频帧对应的人脸检测框作为最终人脸检测框;
关键点提取,对每一最终人脸检测框进行关键点提取处理,提取最终人脸检测框中的嘴唇轮廓和含有若干脸部关键点的脸部关键点集合;
生成特征列表,根据所述嘴唇轮廓和脸部关键点计算出每一最终人脸检测框对应的特征结果,并将所有特征结果存储至预先设置的特征列表中;
说话识别,将所述含有若干特征结果的特征列表输入至预设说话识别模型中进行识别,得到与待识别人物对应的说话识别结果。
进一步地,所述特征结果包括嘴唇开合横纵比和嘴唇张开程度,所述嘴唇轮廓包括若干嘴唇轮廓点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州广电运通智能科技有限公司;广州广电运通金融电子股份有限公司,未经广州广电运通智能科技有限公司;广州广电运通金融电子股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110587534.9/2.html,转载请声明来源钻瓜专利网。