首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种基于流式语音识别的嘴型检测方法和装置以及设备在审

申请号：	202211179292.0	申请日：	2022-09-27
公开（公告）号：	CN115691499A	公开（公告）日：	2023-02-03
发明（设计）人：	杜维鑫;兰泽华;蔡如意	申请（专利权）人：	睿云联（厦门）网络通讯技术有限公司
主分类号：	G10L15/26	分类号：	G10L15/26;G10L15/06;G10L15/25
代理公司：	厦门原创专利事务所(普通合伙) 35101	代理人：	黄一敏
地址：	361000 福建省厦门市火***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于语音识别检测方法装置以及设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于流式语音识别的嘴型检测方法，其特征在于，包括：

提供一种声学模型，该声学模型识别语音信号输出文本序列；基于该文本序列生成音素序列；基于该音素序列生成视素序列；该声学模型的构建方法包括如下步骤：

提取语音信号的FBANK特征值，该FBANK特征值输入高斯混合模型进行聚类输出若干语音聚类帧；每个该语音聚类帧的帧前及帧后各保留5-8帧的语音信号形成拼接特征；该拼接特征输入TDNN模型构建的声学模型进行训练。

2.如权利要求1所述的基于流式语音识别的嘴型检测方法，其特征在于，所述基于该文本序列生成音素序列，包括：

所述声学模型输出似然矩阵；

提供一语言模型，输入该似然矩阵进行解码输出文本序列及音素序列；该语言模型的加权有限状态转移器基于语音信号的文本信息进行构建，且该语言模型构建完成后进行剪枝。

3.如权利要求1所述的基于流式语音识别的嘴型检测方法，其特征在于，所述基于该音素序列生成视素序列，包括：

将音素序列内的每个音素依据发音将音素与视素进行映射，每个视素对应一个嘴型；若干视素依据音素序列的顺序排序生成视素序列。

4.如权利要求1或3所述的基于流式语音识别的嘴型检测方法，其特征在于，在所述生成视素序列之后，进一步包括，将该视素序列输入虚拟人物模型，依据视素序列中对应的嘴型变更虚拟人物的嘴型。

5.一种基于流式语音识别的嘴型检测装置，其特征在于，包括：

采集模块、流式语音识别模块、文本转嘴型模块；

所述采集模块，用于采集语音信号；

所述流式语音识别模块，利用声学模型识别语音信号输出文本序列；还用于训练声学模型，提取语音信号的FBANK特征值，该FBANK特征值输入高斯混合模型进行聚类输出若干语音聚类帧；每个该语音聚类帧的帧前及帧后各保留5-8帧的语音信号形成拼接特征；该拼接特征输入TDNN模型构建的声学模型进行训练；

所述文本转嘴型模块，用于根据文本序列生成音素序列；基于该音素序列生成视素序列。

6.如权利要求5所述的基于流式语音识别的嘴型检测装置，其特征在于，所述文本转嘴型模块，具体用于：

所述声学模型输出似然矩阵；提供一语言模型，输入该似然矩阵进行解码输出文本序列及音素序列；该语言模型的加权有限状态转移器基于语音信号的文本信息进行构建，且该语言模型构建完成后进行剪枝。

7.如权利要求5所述的基于流式语音识别的嘴型检测装置，其特征在于，所述文本转嘴型模块，具体用于：

将音素序列内的每个音素依据发音将音素与视素进行映射，每个视素对应一个嘴型；若干视素依据音素序列的顺序排序生成视素序列。

8.如权利要求5或7所述的基于流式语音识别的嘴型检测装置，其特征在于，所述基于流式语音识别的嘴型检测装置，还包括：

可视化模块；

所述可视化模块，用于将该视素序列输入虚拟人物模型，依据视素序列中对应的嘴型变更虚拟人物的嘴型。

9.一种基于流式语音识别的嘴型检测设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至4中任一项所述的基于流式语音识别的嘴型检测方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的基于流式语音识别的嘴型检测方法。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于睿云联（厦门）网络通讯技术有限公司，未经睿云联（厦门）网络通讯技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202211179292.0/1.html，转载请声明来源钻瓜专利网。

上一篇：多方位静电贴纸质量鉴定装置
下一篇：基于LG-CenterNet模型的复杂道路场景目标检测方法及装置

同类专利

专利分类

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top