[发明专利]基于不重叠分帧和串行FFT的极低功耗语音特征提取电路在审
申请号: | 202011488049.8 | 申请日: | 2020-12-16 |
公开(公告)号: | CN112669819A | 公开(公告)日: | 2021-04-16 |
发明(设计)人: | 单伟伟;朱励轩 | 申请(专利权)人: | 东南大学 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L25/27;G10L25/45 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 熊玉玮 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 重叠 串行 fft 功耗 语音 特征 提取 电路 | ||
本发明公开了基于不重叠分帧和串行FFT的极低功耗语音特征提取电路,属于计算、推算或计数的技术领域。该电路面向智能领域,通过优化MFCC算法架构,整体由预加重模块、加窗模块、傅里叶变换模块、梅尔滤波模块、相邻帧合并模块以及离散余弦变换等模块组成,使用不重叠分帧的方式避免了分帧时造成的大规模存储,将MFCC算法中包含的存储进一步削减,极大地降低了电路面积和功耗。该特征提取电路中的FFT算法采用串行流水线方式处理数据,充分利用音频数据串行流入的特点,进一步减小了电路的存储面积和运算次数。
技术领域
本发明公开了基于不重叠分帧和串行FFT的极低功耗语音特征提取电路,涉及信号处理和集成电路设计技术,属于计算、推算或计数的技术领域。
背景技术
随着计算机技术的飞速发展,人机交互成为越来越热门的研究方向,而语音是进行信息交流的重要手段,目前语音识别技术已经得到广泛应用,例如iPhone 的Siri、智能音箱、机器人、车载系统等。语音识别技术是人机交互的入口,而语音唤醒又是复杂系统的接口,如何高效准确地对用户的指令给出反应成为人机交互技术的最重要目标,其中,在面向电池供电的智能设备中,其资源受限的特性决定了超低功耗成为迫切需要解决的问题。语音唤醒的过程包含两个阶段:音频信号的特征提取,关键词的特征识别。对于语音唤醒系统而言,良好的语音特征可以极大提高系统的最终识别精度,因此语音特征提取电路的设计是整个系统设计的一个关键点。
目前,常用的语音特征提取算法为梅尔频率倒谱分析(Mel-frequency CepstralCoefficients,简称MFCC)。MFCC是通过快速傅里叶变换(FFT,Fast Fourier Transform)将时域信号转化为频域信号,再对频域信号进行梅尔滤波,梅尔滤波的本质是将最终特征尽可能接近人的生理感官(因为人对声音的感知是非线性的),然后再对梅尔滤波结果做自然对数运算,再对对数运算结果进行离散余弦变换(DCT,Discrete Cosine Transform)得到声音的一系列特征。传统的MFCC 算法对应硬件的适配性很差,FFT运算过程以及梅尔滤波运算所需的大量乘加运算和存储面积,增大了硬件的实现难度和代价。为克服传统MFCC算法的缺陷,一种优化的低功耗MFCC语音特征提取电路通过串行FFT和优化梅尔滤波算法架构以及预处理模块的乘加方式,极大减小了语音特征提取电路的运算量和存储量,但该优化的语音特征提取电路分帧加窗处理相邻两帧数据后存在重叠数据,而重叠的数据量通常为一帧数据点数的一半,存储重叠数据的存储器的容量与一帧数据点数以及数据精度相关,仍然存在运算量大以及需要大面积存储的缺陷。本申请旨在优化语音特征提取电路中的分帧加窗操作模块以避免整个特征提取过程中的分帧操作,进而实现进一步降低运算量、存储面积及硬件功耗的发明目的。
发明内容
本发明的发明目的是针对上述背景技术的不足,提供了基于不重叠分帧和串行FFT的极低功耗语音特征提取电路,利用不重叠分帧加窗操作精简电路包含的大部分存储,并采用串行FFT算法处理输入数据,在适应串行输入数据流的特点的情况下极大地减小电路的面积以及功耗,使得语音特征提取电路的功耗极低,从而解决了语音特征提取算法在硬件上的高功耗和大存储量的技术问题。
本发明为实现上述发明目的采用如下技术方案:
基于不重叠分帧和串行FFT的极低功耗语音特征提取电路,包括:预处理模块,加窗模块、FFT模块、梅尔滤波模块、相邻帧合并模块以及对数和DCT模块。
预处理模块,功能等同于一个高通滤波器,该模块保证了信号在频谱上的信噪比。具体操作为将语音序列串行输入进预处理模块,输入的数据与相邻的前一个数据乘以系数后的结果做减法,得到预加重后的语音信号。
加窗模块,功能为将t(t为小数,常取10到20)毫秒的数据作为一个汉明窗的数据长度,t毫秒的数据点数(数据点数为帧长乘以采样率)为T(T为整数,为了满足后续FFT模块,T常取2的N次方),数据精度为A比特(A为大于1的整数)。输入数据以T为周期依次流入加窗模块与存储在只读存储器中的 T个汉明窗函数值相乘后依次输出,即可得到该模块的输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011488049.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高效直立式双面丝网印刷机构
- 下一篇:一种用于妇科手术的辅助装置