[发明专利]基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质有效
申请号: | 201910016861.1 | 申请日: | 2019-01-08 |
公开(公告)号: | CN111429889B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 付晓寅;白锦峰;陈志杰;梁鸣心;陈旭;贾磊 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G10L15/04 | 分类号: | G10L15/04;G10L15/26;G10L15/30 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 李辉;丁君军 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 截断 注意力 实时 语音 识别 方法 装置 设备 以及 计算机 可读 存储 介质 | ||
1.一种基于截断注意力的实时语音识别的方法,包括:
基于输入的语音信号,获得用于截断所述语音信号的特征序列的截断信息;
基于所述截断信息,将所述特征序列截断成多个子序列;以及
针对所述多个子序列中的子序列,通过注意力机制来获得实时识别结果,
其中获得用于截断语音信号的特征序列的截断信息包括:
通过对所述特征序列进行连接时序分类CTC处理来获得与所述语音信号有关的尖峰信息;以及
基于所获得的所述尖峰信息,确定所述截断信息。
2.根据权利要求1所述的方法,其中通过注意力机制来获得实时识别结果包括:
对所述多个子序列中的第一子序列执行注意力模型的第一注意力建模,所述注意力模型能够实现加权特征选择;以及
对所述多个子序列中的第二子序列执行所述注意力模型的第二注意力建模,所述第一注意力建模不同于所述第二注意力建模。
3.根据权利要求1所述的方法,其中:
由共享编码器将所述语音信号编码成所述特征序列;
由连接时序分类CTC模块基于所述特征序列来获得所述尖峰信息;以及
由注意力解码器基于所述特征序列和所述尖峰信息来获得所述实时识别结果,所述共享编码器被所述连接时序分类CTC模块和所述注意力解码器共享。
4.根据权利要求3所述的方法,还包括:
确定用于训练所述连接时序分类CTC模块的第一损失函数;
确定用于训练所述注意力解码器的第二损失函数;以及
使用所述第一损失函数和所述第二损失函数来一起训练所述连接时序分类CTC模块和所述注意力解码器。
5.根据权利要求1所述的方法,其中将所述特征序列截断成多个子序列包括:
针对所述尖峰信息中的每个尖峰,选择所述特征序列中与每个尖峰相邻的预定数目个尖峰相对应的子序列,所述预定数目个尖峰包括每个尖峰之前的第一数目个尖峰和每个尖峰之后的第二数目个尖峰。
6.根据权利要求5所述的方法,其中通过注意力机制来获得实时识别结果包括:
基于所述特征序列中的多个重叠的子序列,通过第一级注意力机制分别确定多个特征向量;
基于所确定的所述多个特征向量,通过第二级注意力机制确定上下文特征向量;以及
基于所确定的所述上下文特征向量,确定所述实时识别结果。
7.根据权利要求5所述的方法,其中所述特征序列是隐含特征序列,并且每个尖峰指示一个音节或者一组音素。
8.一种基于截断注意力的实时语音识别的装置,包括:
截断信息获得模块,被配置为基于输入的语音信号,获得用于截断所述语音信号的特征序列的截断信息;
特征序列截断模块,被配置为基于所述截断信息,将所述特征序列截断成多个子序列;以及
识别结果获得模块,被配置为针对所述多个子序列中的子序列,通过注意力机制来获得实时识别结果,
其中所述截断信息获得模块包括:
尖峰信息获得模块,被配置为通过对所述特征序列进行连接时序分类CTC处理来获得与所述语音信号有关的尖峰信息;以及
截断信息确定模块,被配置为基于所获得的所述尖峰信息,确定所述截断信息。
9.根据权利要求8所述的装置,其中所述识别结果获得模块包括:
第一注意力建模装置,被配置为对所述多个子序列中的第一子序列执行注意力模型的第一注意力建模,所述注意力模型能够实现加权特征选择;以及
第二注意力建模装置,被配置为对所述多个子序列中的第二子序列执行所述注意力模型的第二注意力建模,所述第一注意力建模不同于所述第二注意力建模。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910016861.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:马达控制方法与装置
- 下一篇:任务卸载方法、装置、移动终端、雾节点和存储介质