[发明专利]语音识别方法和设备有效
申请号: | 201711462412.7 | 申请日: | 2017-12-28 |
公开(公告)号: | CN108269569B | 公开(公告)日: | 2023-10-27 |
发明(设计)人: | 李镐式;罗辉栋 | 申请(专利权)人: | 三星电子株式会社 |
主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L15/183;G10L15/26 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 姜长星;张川绪 |
地址: | 韩国京畿*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 设备 | ||
1.一种语音识别方法,所述语音识别方法包括:
基于由在语音的识别的之前时间的语音识别模型神经网络的至少一个层输出的输出值,确定注意力权重;
将确定的注意力权重施加到与语音的识别的当前时间对应的语音信号;
使用语音识别模型神经网络,识别被施加注意力权重的语音信号。
2.根据权利要求1所述的语音识别方法,其中,在之前时间的语音识别模型神经网络的所述至少一个层为语音识别模型神经网络的隐藏层。
3.根据权利要求2所述的语音识别方法,其中,在之前时间的语音识别模型神经网络的所述至少一个层包括到在当前时间的语音识别模型神经网络的循环连接,和/或
其中,在当前时间的语音识别模型神经网络的接下来被提供被施加注意力权重的语音信号的层和在当前时间的语音识别模型神经网络的分层的上层中的至少一个层包括来自在之前时间的语音识别模型神经网络的各个连接。
4.根据权利要求1所述的语音识别方法,其中,确定的步骤包括:基于由在之前时间的语音识别模型神经网络的输出层输出的输出值,确定注意力权重。
5.根据权利要求1所述的语音识别方法,其中,确定的步骤包括:还基于根据关于将被识别的说话者的信息而确定的上下文值,确定注意力权重,其中,所述信息用于从其他说话者中突出所述将被识别的说话者。
6.根据权利要求1所述的语音识别方法,其中,确定的步骤包括:基于根据关于将被识别的说话者的信息而确定的上下文值,确定注意力权重,其中,所述信息用于从噪声中突出所述将被识别的说话者。
7.根据权利要求1所述的语音识别方法,其中,确定的步骤包括:还基于输入到在当前时间的语音识别模型神经网络的语音帧的特征值或者被处理为将被输入到在当前时间的语音识别模型神经网络的语音帧的特征值,确定注意力权重。
8.根据权利要求1所述的语音识别方法,还包括:
将语音信号划分为不同频率分量的信号,
其中,施加的步骤包括:将确定的注意力权重分别施加到所述不同频率分量的信号的特征值。
9.根据权利要求8所述的语音识别方法,其中,将确定的注意力权重分别施加到所述不同频率分量的信号的特征值的步骤,通过并根据确定的注意力权重的分别施加,来在所述不同频率分量被输入到语音识别模型神经网络时或在所述不同频率分量被输入到语音识别模型神经网络之前,分别并选择性地突出所述不同频率分量。
10.根据权利要求8所述的语音识别方法,其中,确定的注意力权重为具有与从划分语音信号的步骤得到的并在施加的步骤中被施加确定的注意力权重的语音输入向量的维度相等的维度的向量。
11.根据权利要求8所述的语音识别方法,其中,所述不同频率分量的信号的特征值具有由所述不同频率分量的各自的窗口的大小表示的大小,并且将确定的注意力权重分别施加到特征值的步骤包括:基于施加的确定的注意力权重,选择性地调节不同频率分量的各自的窗口的大小。
12.根据权利要求1所述的语音识别方法,
其中,确定的步骤包括:响应于包括在语音信号中的多个语音帧被输入到语音识别模型神经网络或被处理为将被输入到语音识别模型神经网络,确定将被施加到所述多个语音帧中的每个语音帧的各自的注意力权重,
其中,施加的步骤包括:将确定的各自的注意力权重施加到所述多个语音帧。
13.根据权利要求1所述的语音识别方法,其中,识别的步骤包括:通过使用语音识别模型神经网络估计由被施加注意力权重的语音信号指示的语言信息,来识别被施加注意力权重的语音信号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三星电子株式会社,未经三星电子株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711462412.7/1.html,转载请声明来源钻瓜专利网。