[发明专利]一种语音识别方法、装置及电子设备在审
申请号: | 201910445666.0 | 申请日: | 2019-05-27 |
公开(公告)号: | CN110164438A | 公开(公告)日: | 2019-08-23 |
发明(设计)人: | 陈孝良;王超;冯大航 | 申请(专利权)人: | 北京声智科技有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L17/00;G10L17/02;G10L17/04;G10L17/14;G10L17/18;G10L17/22 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100080 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标用户 装置及电子设备 语音识别 语音特征 声音指令 语音数据 预设目标 分析 发送 输出 | ||
1.一种语音识别方法,其特征在于,包括:
获取待分析的语音数据;
对所述语音数据进行分帧操作,得到多帧目标语音数据;
确定所述目标语音数据对应的声学特征数据;
基于所述声学特征数据,确定对应的特征向量;所述特征向量表征输出所述语音数据的目标用户的语音特征;
根据所述特征向量从预设目标用户列表中识别出所述目标用户。
2.根据权利要求1所述的语音识别方法,其特征在于,所述确定所述目标语音数据对应的声学特征数据,包括:
提取所述目标语音数据的声学前端特征数据;
对所述声学前端特征数据进行一阶差分计算和二阶差分计算,得到差分特征数据;
基于所述差分特征数据和所述声学前端特征数据,得到所述目标语音数据对应的声学特征数据。
3.根据权利要求1所述的语音识别方法,其特征在于,所述基于所述声学特征数据,确定对应的特征向量,包括:
获取特征确定模型;所述特征确定模型包括卷积层、ROI池化层和全连接层;所述卷积层、所述ROI池化层和所述全连接层依次连接;所述ROI池化层用于将所述声学特征数据经过卷积层得到的中间特征向量转换为输出向量;所述输出向量的行数为预设指定行数且列数为预设指定列数;所述特征确定模型使用的损失函数为focalloss损失函数;
基于所述特征确定模型和每一所述目标语音数据的声学特征数据,得到所述特征向量。
4.根据权利要求3所述的语音识别方法,其特征在于,所述基于所述特征确定模型和每一所述目标语音数据的声学特征数据,得到所述特征向量,包括:
基于所述特征确定模型中的卷积层,对所述声学特征数据进行卷积操作,得到中间特征向量;所述中间特征向量的行数为第一数值且列数为第二数值;
在所述中间特征向量中的左上、右上、左下和右下方向分别提取出包括预设特定行数和预设特定列数的特征子向量;所述预设特定行数为第一数值的一半;所述预设特定列数为第二数值的一半;
对所述特征子向量进行池化操作,得到所述输出向量;
基于所述特征确定模型中的全连接层和所述输出向量,得到所述特征向量。
5.根据权利要求1所述的语音识别方法,其特征在于,所述根据所述特征向量从预设目标用户列表中识别出所述目标用户,包括:
获取所述预设目标用户列表中的预设目标用户对应的目标特征向量;所述目标特征向量表征所述预设目标用户的语音特征;
计算所述目标特征向量与所述特征向量的余弦相似距离;
筛选出对应的余弦相似距离大于预设距离值的目标特征向量;
将筛选出的所述目标特征向量对应的预设目标用户作为所述目标用户。
6.一种语音识别装置,其特征在于,包括:
数据获取模块,用于获取待分析的语音数据;
数据分帧模块,用于对所述语音数据进行分帧操作,得到多帧目标语音数据;
特征确定模块,用于确定所述目标语音数据对应的声学特征数据;
向量确定模块,用于基于所述声学特征数据,确定对应的特征向量;所述特征向量表征输出所述语音数据的目标用户的语音特征;
目标识别模块,用于根据所述特征向量从预设目标用户列表中识别出所述目标用户。
7.根据权利要求6所述的语音识别装置,其特征在于,所述特征确定模块包括:
数据提取子模块,用于提取所述目标语音数据的声学前端特征数据;
差分计算子模块,用于对所述声学前端特征数据进行一阶差分计算和二阶差分计算,得到差分特征数据;
特征确定子模块,用于基于所述差分特征数据和所述声学前端特征数据,得到所述目标语音数据对应的声学特征数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京声智科技有限公司,未经北京声智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910445666.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种即时通信的语音识别方法和终端
- 下一篇:智能服务机器人