[发明专利]使用神经网络加速器的特征提取在审
申请号: | 201810435641.8 | 申请日: | 2018-05-02 |
公开(公告)号: | CN108986787A | 公开(公告)日: | 2018-12-11 |
发明(设计)人: | M·克派斯;P·罗森 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/12;G10L25/30 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 黄嵩泉;张欣 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络 特征提取 加速器 音频剪辑 语音识别 矩阵 矩阵乘法 描述特征 申请 | ||
本申请公开了使用神经网络加速器的特征提取。描述特征提取用于使用神经网络加速器进行语音识别。在一个示例中,接收音频剪辑用于特征提取。使用硬件神经网络加速器的矩阵‑矩阵乘法,对音频剪辑执行多个特征提取操作,并且产生用于语音识别的特征。
技术领域
本说明书涉及语音识别领域,并且具体涉及使用硬件加速实现语音识别。
背景技术
电子设备用户界面(UI)的世界正在发展。以前,计算机交互使用键盘、鼠标和显示器。而后,智能电话革命到来,并引起了朝着触摸界面的转换。今天,当越来越多人正在智能电话和台式电脑中使用音频数字助理时,用于语音UI的语音转文本应用的重要性正在增长。除了智能电话之外,语音UI在小型可穿戴设备和家庭自动化设备中也获得了更大的发展势头,该小型可穿戴设备和家庭自动化设备在大多数情况下根本不具有显示器。
作为语音UI的主要部分的自动语音识别(ASR)系统在MIPS(每秒百万条指令)和存储器的情境中要求很高。因此,许多设备将语音识别部署为远程服务。典型的智能电话或智能中枢记录用户语音,将该语音发送至服务器,然后基于来自该服务器的语音接收经识别的语音或命令。这允许复杂的语音识别任务在大型的、强大的服务器上被执行,这些服务器可以在不影响用户或用户硬件的情况下进行更新和改进。
对于网络请求,例如“天气预报是什么?”,没有增加的延迟。该请求必须由远程服务应答,因此用于与远程服务器通信的时间不显著增加至延迟。对于本地命令,例如“打开灯”,将音频发送至服务器以及接收经识别的语音或灯控制命令中的延迟可能是能引起注意的。对于一些设备而言,设备的性质可能要求更快的响应。因此,应努力在设备本地实现ASR。
大多数常见的ASR实现是纯软件。然而,在电池尺寸处理能力小的小型便携式设备(诸如,可穿戴设备)上很难满足软件ASR要求。为了解决小电池容量和小型处理器的问题,不同类型的低功率硬件(HW)加速器已添加到器件设计中。这允许诸如特征提取或声学评分之类要求高的工作负载被卸载至专用低功率硬件。
附图说明
各实施例作为示例而非限制在所附附图中示出,在附图中,同样的参考编号指代同样的要素。
图1是根据实施例的语音识别系统的概览。
图2是根据实施例的神经网络加速器的图。
图3是根据实施例的用于在神经网络加速器上执行MFCC的硬件模块图。
图4是根据实施例的在神经网络加速器上交织(interleaving)的图。
图5是根据实施例的用于执行预处理的组件的图。
图6是根据实施例的在神经网络加速器上的DNN的图。
图7是根据实施例的在神经网络加速器上的对角线的图。
图8是根据实施例的在神经网络加速器上的解交织的图。
图9是根据实施例的在神经网络加速器上的RNN的图。
图10是根据实施例的用于执行合并特征的组件的图。
图11是根据实施例的包含使用神经网络加速器的语音识别系统的计算设备的框图。
具体实施方式
对于计算系统中的各种不同任务,已经开发了硬件加速器。一些系统具有用于图形渲染、用于神经网络、用于图像处理、用于语音识别以及用于其他任务的硬件加速器。每个加速器都需要一些电路系统,并且即使不正在被使用时也可能需要一些备用功率。在本说明书中,在神经网络加速器中执行例如梅尔滤波倒谱系数(MFCC)的声学特征提取,而不需要对该神经网络加速器硬件进行任何修改。使用现有的硬件也来执行ASR功能允许以更低的成本和更低的功率获得更快的ASR性能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810435641.8/2.html,转载请声明来源钻瓜专利网。