[发明专利]一种语音识别方法、装置及电子设备在审

申请号：	201910445666.0	申请日：	2019-05-27
公开（公告）号：	CN110164438A	公开（公告）日：	2019-08-23
发明（设计）人：	陈孝良;王超;冯大航	申请（专利权）人：	北京声智科技有限公司
主分类号：	G10L15/22	分类号：	G10L15/22;G10L17/00;G10L17/02;G10L17/04;G10L17/14;G10L17/18;G10L17/22
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	王宝筠
地址：	100080 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	目标用户装置及电子设备语音识别语音特征声音指令语音数据预设目标分析发送输出
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种语音识别方法，其特征在于，包括：

获取待分析的语音数据；

对所述语音数据进行分帧操作，得到多帧目标语音数据；

确定所述目标语音数据对应的声学特征数据；

基于所述声学特征数据，确定对应的特征向量；所述特征向量表征输出所述语音数据的目标用户的语音特征；

根据所述特征向量从预设目标用户列表中识别出所述目标用户。

2.根据权利要求1所述的语音识别方法，其特征在于，所述确定所述目标语音数据对应的声学特征数据，包括：

提取所述目标语音数据的声学前端特征数据；

对所述声学前端特征数据进行一阶差分计算和二阶差分计算，得到差分特征数据；

基于所述差分特征数据和所述声学前端特征数据，得到所述目标语音数据对应的声学特征数据。

3.根据权利要求1所述的语音识别方法，其特征在于，所述基于所述声学特征数据，确定对应的特征向量，包括：

获取特征确定模型；所述特征确定模型包括卷积层、ROI池化层和全连接层；所述卷积层、所述ROI池化层和所述全连接层依次连接；所述ROI池化层用于将所述声学特征数据经过卷积层得到的中间特征向量转换为输出向量；所述输出向量的行数为预设指定行数且列数为预设指定列数；所述特征确定模型使用的损失函数为focalloss损失函数；

基于所述特征确定模型和每一所述目标语音数据的声学特征数据，得到所述特征向量。

4.根据权利要求3所述的语音识别方法，其特征在于，所述基于所述特征确定模型和每一所述目标语音数据的声学特征数据，得到所述特征向量，包括：

基于所述特征确定模型中的卷积层，对所述声学特征数据进行卷积操作，得到中间特征向量；所述中间特征向量的行数为第一数值且列数为第二数值；

在所述中间特征向量中的左上、右上、左下和右下方向分别提取出包括预设特定行数和预设特定列数的特征子向量；所述预设特定行数为第一数值的一半；所述预设特定列数为第二数值的一半；

对所述特征子向量进行池化操作，得到所述输出向量；

基于所述特征确定模型中的全连接层和所述输出向量，得到所述特征向量。

5.根据权利要求1所述的语音识别方法，其特征在于，所述根据所述特征向量从预设目标用户列表中识别出所述目标用户，包括：

获取所述预设目标用户列表中的预设目标用户对应的目标特征向量；所述目标特征向量表征所述预设目标用户的语音特征；

计算所述目标特征向量与所述特征向量的余弦相似距离；

筛选出对应的余弦相似距离大于预设距离值的目标特征向量；

将筛选出的所述目标特征向量对应的预设目标用户作为所述目标用户。

6.一种语音识别装置，其特征在于，包括：