[发明专利]使用神经网络加速器的特征提取在审
申请号: | 201810435641.8 | 申请日: | 2018-05-02 |
公开(公告)号: | CN108986787A | 公开(公告)日: | 2018-12-11 |
发明(设计)人: | M·克派斯;P·罗森 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/12;G10L25/30 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 黄嵩泉;张欣 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络 特征提取 加速器 音频剪辑 语音识别 矩阵 矩阵乘法 描述特征 申请 | ||
1.一种用于语音识别的特征提取方法,包括:
接收用于特征提取的音频剪辑;
使用硬件神经网络加速器的矩阵-矩阵乘法,对所述音频剪辑执行多个特征提取操作;以及
生成用于语音识别的特征。
2.如权利要求1所述的方法,其特征在于,所述特征包括系数。
3.如权利要求1或2所述的方法,其特征在于,所述系数为梅尔滤波倒谱系数。
4.如上述权利要求中的任何一项或多项所述的方法,其特征在于,进一步包括:使用用于声学评分的神经网络对建模为分段线性函数的特征提取执行非线性变换。
5.如上述权利要求中的任何一项或多项所述的方法,其特征在于,进一步包括:缩放中间值以减小矩阵值。
6.如权利要求5所述的方法,其特征在于,所述缩放包括:使用矩阵-矩阵乘法来确定和的对数。
7.如上述权利要求中的任何一项或多项所述的方法,其特征在于,所述特征提取操作包括执行梅尔滤波倒谱系数MFCC特征提取。
8.如权利要求7所述的方法,其特征在于,使用值1或0来执行所述MFCC的窗口化,以将所接收的流分割为帧。
9.如权利要求7或8所述的方法,其特征在于,使用所述神经网络的乘法硬件来执行所述MFCC的离散傅立叶变换、功率谱映射和离散余弦变换。
10.如权利要求9所述的方法,其特征在于,所述离散余弦变换生成系数,并且其中,使用所述神经网络硬件的矩阵-矩阵乘法来对所述系数滤波并合并所述系数,以应用到用于语音识别的声学模型。
11.如权利要求7-10中的任何一项或多项所述的方法,其特征在于,进一步包括:使用所述硬件神经网络加速器的分段线性函数执行所述MFCC的非线性函数变换。
12.如上述权利要求中的任何一项或多项所述的方法,其特征在于,执行所述特征提取操作包括通过以下操作预处理所述音频剪辑:
对所述音频剪辑窗口化;
将经窗口化的剪辑作为输入应用于神经网络硬件层以确定平均值;以及
将所述平均值应用于另一神经网络硬件层以对所述平均值执行减法。
13.如上述权利要求中的任何一项或多项所述的方法,其特征在于,产生特征包括合并特征操作,所述合并特征操作通过以下操作执行:使用所述神经网络加速器的层复制旧特征、使用所述神经网络加速器的另一层对特征进行分组、以及使用所述神经网络加速器的另一层从经合并的特征中移除填充的0。
14.如上述权利要求中的任何一项或多项所述的方法,其特征在于,对特征分组包括:首先解交错,然后复制。
15.一种特征提取系统,包括:
硬件神经网络加速器;以及
处理器,用于接收音频剪辑,并用于将所述硬件神经网络加速器配置成用于使用所述神经网络加速器的矩阵-矩阵乘法对所述音频剪辑执行多个特征提取操作以从所述神经网络加速器接收所提取的特征并使用所提取的特征来识别所述音频剪辑内的语音。
16.如权利要求15所述的特征提取系统,其特征在于,所述处理器将所述硬件神经网络加速器配置成用于使用所述神经网络加速器的乘法硬件来执行MFCC的离散傅立叶变换、功率谱映射和离散余弦变换。
17.如权利要求16所述的特征提取系统,其特征在于,所述离散余弦变换生成系数,并且其中,使用所述神经网络硬件的矩阵-矩阵乘法对所述系数滤波并合并所述系数,以应用到用于语音识别的声学模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810435641.8/1.html,转载请声明来源钻瓜专利网。