[发明专利]唇语识别方法、样本标注方法、模型训练方法及装置、设备、存储介质在审
申请号: | 202210573455.7 | 申请日: | 2022-05-24 |
公开(公告)号: | CN114822543A | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 刘恒;李志刚;石磊;刘腾 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G10L15/25 | 分类号: | G10L15/25;G10L15/06;G10L15/07;G10L15/26;G06K9/62;G06V40/16;G06V40/20;G06V10/774 |
代理公司: | 北京华夏正合知识产权代理事务所(普通合伙) 11017 | 代理人: | 韩登营 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 方法 样本 标注 模型 训练 装置 设备 存储 介质 | ||
1.一种样本标注方法,其特征在于,应用于电子设备,所述样本标注方法包括:
用户对着电子设备说话的过程中,获取用户的视频和音频;
提取所述视频中的唇动视频片段和所述音频中的语音片段;
选择与所述语音片段匹配的所述唇动视频片段;
以所述语音片段的语音识别文本作为标签对所述唇动视频片段进行标注,得到用户的唇语识别样本。
2.根据权利要求1所述的方法,其特征在于,
所述方法还包括如下之一或多项:
检测环境噪声的音量;
获取用户的唤醒语音置信度;
检测摄像头的视野范围内是否包含人脸或人嘴;
获取所述视频中的说话人位置和所述音频的声源定位方向;
所述获取用户的视频和音频,具体包括:在所述环境噪声的音量等于或小于预设的噪声阈值、所述唤醒语音置信度大于或等于预设的第一置信度阈值、所述摄像头的视野范围内包含人脸或人嘴、和/或所述视频的说话人位置和所述音频的声源定位方向匹配时,获取用户的视频和音频。
3.根据权利要求1或2所述的方法,其特征在于,所述提取所述视频中的唇动视频片段和所述音频中的语音片段,包括:
通过唇动人声区间检测方式对所述视频进行端点检测和切分,得到所述唇动视频片段和所述唇动视频片段的人声区间;和/或,
通过语音人声区间检测方式对所述音频进行端点检测和切分,得到所述语音片段和所述语音片段的人声区间。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述选择与所述语音片段匹配的所述唇动视频片段,包括:
根据所述语音片段的人声区间和所述唇动视频片段的人声区间,确定所述语音片段与所述唇动视频片段在时间维度上的重叠长度;
在所述语音片段与所述唇动视频片段在时间维度上的重叠长度大于或等于预定的时长阈值时,所述语音片段与所述唇动视频片段是匹配的。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:在与所述语音片段匹配的所述唇动视频片段中,选择唇语识别置信度小于预设的第二置信度阈值的所述唇动视频片段,所述唇语识别置信度是根据预先获得的唇语识别模型对所述唇动视频片段进行唇语识别而得到的。
6.一种模型训练方法,其特征在于,应用于电子设备,包括:利用权利要求1至5任一项所述样本标注方法获得的唇语识别样本,更新唇语识别模型的参数。
7.根据权利要求6所述的方法,其特征在于,
所述唇语识别模型包括通用特征层和可训练层,所述唇语识别模型的参数包括可训练层参数和通用特征层参数;
所述更新唇语识别模型的参数,具体为:更新唇语识别模型的所述可训练层参数。
8.根据权利要求6或7所述的方法,其特征在于,还包括:
将用户的预设信息存储于已注册信息数据库中;
将关联所述预设信息的所述可训练层参数存储于唇语模型库。
9.根据权利要求6至8任一项所述的方法,其特征在于,
所述更新唇语识别模型的参数之前,还包括:通过对比所述唇语识别样本的唇语识别文本和所述唇语识别样本的标签调整所述唇语识别模型的参数更新率,以得到对应所述唇语识别样本的所述参数更新率;其中,所述唇语识别文本是通过所述唇语识别模型对所述唇语识别样本进行唇语识别而获得的;
所述更新唇语识别模型的参数,具体包括:利用所述唇语识别样本和对应所述唇语识别样本的参数更新率,更新所述唇语识别模型的参数。
10.一种唇语识别方法,其特征在于,应用于电子设备,包括:
检测到用户对着电子设备说话时,获取用户的视频;
提取所述视频中的唇动视频片段;
基于权利要求6至9任一项所述模型训练方法得到的唇语识别模型的参数运行所述唇语识别模型以对所述唇动视频片段进行唇语识别,得到唇语识别文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210573455.7/1.html,转载请声明来源钻瓜专利网。