[发明专利]一种基于流式语音识别的嘴型检测方法和装置以及设备在审

专利信息
申请号: 202211179292.0 申请日: 2022-09-27
公开(公告)号: CN115691499A 公开(公告)日: 2023-02-03
发明(设计)人: 杜维鑫;兰泽华;蔡如意 申请(专利权)人: 睿云联(厦门)网络通讯技术有限公司
主分类号: G10L15/26 分类号: G10L15/26;G10L15/06;G10L15/25
代理公司: 厦门原创专利事务所(普通合伙) 35101 代理人: 黄一敏
地址: 361000 福建省厦门市火*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 语音 识别 检测 方法 装置 以及 设备
【说明书】:

发明公开了一种基于流式语音识别的嘴型检测方法和装置以及设备。其中,所述方法包括:提供一种声学模型,该声学模型识别语音信号输出文本序列;基于该文本序列生成音素序列;基于该音素序列生成视素序列;该声学模型的构建方法包括如下步骤:提取语音信号的FBANK特征值,该FBANK特征值输入高斯混合模型进行聚类输出若干语音聚类帧;每个该语音聚类帧的帧前及帧后各保留5‑8帧的语音信号形成拼接特征;该拼接特征输入TDNN模型构建的声学模型进行训练。本发明方法采用语音识别结合音素规则化驱动的方法成本更低,更容易实现且更易部署,对硬件要求较低,能够在更多设备上实现部署。

技术领域

本发明涉及语音识别技术领域,尤其涉及一种基于流式语音识别的嘴型检测方法和装置以及设备。

背景技术

虚拟人的原理是通过视频来捕捉人脸,并且将人的面部动作同步到人物身上,依据摄像头来制造一个虚拟形象。虚拟人也具备说话的功能,通过嘴型和语音同步,其中虚拟人的口型变化一般采用基于图像驱动的图像识别方法,但是基于图像驱动的图像识别方法往往需要用到摄像头去直接获取人脸,这样的方法会涉及到隐私保护的问题,同时获取难度较大、成本较高。其主要的技术问题体现在:①当前领域的虚拟形象嘴型驱动技术训练中更多的是依赖于人脸表情系数和语音同步数据集,但是采集这样的数据集需要通过专门的动作捕捉软件录制专业演员的表演视频,成本高,不能保证数据样本的情况下很难获取比较好的判断效果。②当前领域的虚拟形象嘴型驱动技术关注于人脸嘴型动漫,导致生成的虚拟人木讷呆滞,有的时候甚至会产生恐怖谷效应。③当前领域的虚拟形象嘴型驱动技术存在合成的嘴型和面部动画不够连续,动画流畅度和自然度欠佳。现有技术多采用人脸表情系数建立深度学习模型,对设备端的硬件要求较高。上述技术问题的主要原因为如下三点:

①当前领域的虚拟形象嘴型驱动技术应用到的人脸表情系数。采集过程中需要在人脸出放置传感器和使用结构光摄像头,设备价格昂贵,而且采集过程中还会因为穿戴不适影响到面部运动,从而导致数据采集较为困难,成本高。

②当前领域的虚拟形象嘴型驱动技术依靠的模型输出的人脸表情系数来生成嘴型的表情,但是由于数据量难以保证,有些帧的准确度不好,导致在实际过程中会由于不准确的这些帧导致切换过程中的不自然。

③当前的虚拟形象嘴型驱动技术采用的人脸表情系数,在设备端上通过对人脸表情系数的解析来最终生成人的嘴型,但是该解析引擎计算量大,很难避免跳变现象,因此难以保证流畅度。

因此申请人提出一种基于流式语音识别的嘴型检测方法和装置以及设备。

发明内容

有鉴于此,本发明的目的在于提出一种基于流式语音识别的嘴型检测方法和装置以及设备,直接采用语音识别结合音素规则化驱动的方法成本更低且更容易实现。

根据本发明的一个方面,提供一种基于流式语音识别的嘴型检测方法,包括:提供一种声学模型,该声学模型识别语音信号输出文本序列;基于该文本序列生成音素序列;基于该音素序列生成视素序列;该声学模型的构建方法包括如下步骤:提取语音信号的FBANK特征值,该FBANK特征值输入高斯混合模型进行聚类输出若干语音聚类帧;每个该语音聚类帧的帧前及帧后各保留5-8帧的语音信号形成拼接特征;该拼接特征输入TDNN模型构建的声学模型进行训练。

根据本发明的另一个方面,提供一种基于流式语音识别的嘴型检测装置,包括:采集模块、流式语音识别模块、文本转嘴型模块;所述采集模块,用于采集语音信号;所述流式语音识别模块,利用声学模型识别语音信号输出文本序列;还用于训练声学模型,提取语音信号的FBANK特征值,该FBANK特征值输入高斯混合模型进行聚类输出若干语音聚类帧;每个该语音聚类帧的帧前及帧后各保留5-8帧的语音信号形成拼接特征;该拼接特征输入TDNN模型构建的声学模型进行训练;所述文本转嘴型模块,用于根据文本序列生成音素序列;基于该音素序列生成视素序列。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于睿云联(厦门)网络通讯技术有限公司,未经睿云联(厦门)网络通讯技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211179292.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top