[发明专利]语音识别方法和设备有效
申请号: | 201711462412.7 | 申请日: | 2017-12-28 |
公开(公告)号: | CN108269569B | 公开(公告)日: | 2023-10-27 |
发明(设计)人: | 李镐式;罗辉栋 | 申请(专利权)人: | 三星电子株式会社 |
主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L15/183;G10L15/26 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 姜长星;张川绪 |
地址: | 韩国京畿*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 设备 | ||
提供一种语音识别方法和设备。一种实现用于语音的识别的语音识别模型神经网络的语音识别方法,包括:基于由在语音的识别的之前时间的语音识别模型神经网络的至少一个层输出的输出值,确定注意力权重;将确定的注意力权重施加到与语音的识别的当前时间对应的语音信号;使用语音识别模型神经网络,识别被施加注意力权重的语音信号。
本申请要求于2017年1月4日提交到韩国知识产权局的第10-2017-0001173号韩国专利申请的优先权,所述韩国专利申请的全部公开出于所有的目的通过引用合并于此。
技术领域
下面的描述涉及一种语音识别技术,所述语音识别技术包括用于语音信号的语音识别的语音识别模型的学习和应用。
背景技术
语音识别技术分析人类用于交流的语音语言并将语音语言转换为字符或文本数据。语音识别技术响应于针对方便的需求而发展。
发明内容
提供本发明内容来以简化的形式介绍下面在具体实施方式中进一步描述的构思的选择。本发明内容不意图确定要求保护的主题的关键特征或必要特征,本发明内容也不意图用来帮助确定要求保护的主题的范围。
在一个总体方面,一种实现用于语音的识别的语音识别模型神经网络的处理器实现的语音识别方法,所述方法包括:基于由在语音的识别的之前时间的语音识别模型神经网络的至少一个层输出的输出值,确定注意力权重;将确定的注意力权重施加到与语音的识别的当前时间对应的语音信号;使用语音识别模型神经网络,识别被施加注意力权重的语音信号。
在之前时间的语音识别模型神经网络的所述至少一个层可以是语音识别模型神经网络的隐藏层。
在之前时间的语音识别模型神经网络的所述至少一个层包括到在当前时间的语音识别模型神经网络的循环连接,和/或在当前时间的语音识别模型神经网络的接下来被提供被施加注意力权重的语音信号的层和在当前时间的语音识别模型神经网络的分层的高层中的至少一个层可包括来自在之前时间的语音识别模型神经网络的各个连接。
确定的步骤可包括:基于由在之前时间的语音识别模型神经网络的输出层输出的输出值,确定注意力权重。
确定的步骤可包括:还基于根据关于将被识别的说话者的信息而确定的上下文值,确定注意力权重,其中,所述信息用于从其他说话者中突出所述将被识别的说话者。
确定的步骤可包括:基于根据关于将被识别的说话者的信息而确定的上下文值,来确定注意力权重,其中,所述信息用于从噪声中突出所述将被识别的说话者。
确定的步骤可包括:还基于输入到在当前时间的语音识别模型神经网络的语音帧的特征值或者被处理为将被输入到在当前时间的语音识别模型神经网络的语音帧的特征值,确定注意力权重。
所述方法还可包括:将语音信号划分为不同频率分量的信号,其中,施加的步骤可包括:将确定的注意力权重分别施加到所述不同频率分量的信号的特征值。
将确定的注意力权重分别施加到所述不同频率分量的信号的特征值的步骤,可通过并根据确定的注意力权重的分别施加,来在所述不同频率分量被输入到语音识别模型神经网络时或在所述不同频率分量被输入到语音识别模型神经网络之前,分别并选择性地突出所述不同频率分量。
所述确定的注意力权重可以是具有与从划分语音信号的步骤得到的并在施加的步骤中被施加确定的注意力权重的语音输入向量相等的维度的向量。
所述不同频率分量的信号的特征值可具有由所述不同频率分量的各自的窗口(bin)的大小表示的大小,并且将确定的注意力权重分别施加到特征值的步骤可包括:基于施加的确定的注意力权重,选择性地调节不同频率分量的各自的窗口的大小。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三星电子株式会社,未经三星电子株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711462412.7/2.html,转载请声明来源钻瓜专利网。