[发明专利]利用周期指示的声音识别有效
申请号: | 201780084735.9 | 申请日: | 2017-12-15 |
公开(公告)号: | CN110226201B | 公开(公告)日: | 2023-09-08 |
发明(设计)人: | 市川治;福田隆;B·拉马巴哈德兰 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L25/93 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 李颖 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 周期 指示 声音 识别 | ||
提供了一种计算机实现的方法和装置。该方法包括由处理器获得音频信号数据的频谱。该方法还包括由处理器从频谱中提取周期性指示。该方法还包括由处理器将周期性指示和频谱的分量输入神经网络。该方法还包括由处理器估计来自神经网络的声音识别信息。
技术领域
本发明涉及基于音频信号的频谱中的周期性指示来估计声音识别。
背景技术
许多传统的语音识别系统使用由log-Mel或Mel-Frequency CepstrumCoefficients(MFCC)处理的特征作为输入特征。Log-Mel和MFCC将Mel滤波器组应用于音频信号数据的频谱。然而,Mel滤波器组不保留音频信号数据中的更高分辨率信息。通常,人类语音中的谐波结构通过Mel滤波过程丢失。谐波结构提供可用于将元音与其他音素区分开的信息。
同时,当前的语音识别系统在计算上是昂贵的,因此需要大量时间或许多计算资源。需要以可以改善系统性能的方式将谐波结构集成到语音识别系统中。
发明内容
根据本发明的一个方面,提供了一种计算机实现的方法,包括由处理器获得音频信号数据的频谱。该方法还包括由处理器从频谱中提取周期性指示。该方法还包括由处理器将周期性指示和频谱分量输入神经网络。该方法还包括由处理器估计来自神经网络的声音识别信息。
根据本发明的另一方面,提供了一种计算机程序产品,其具有与其一起实现的指令。指令可由处理器或可编程电路执行,以使处理器或可编程电路执行方法。该方法包括获得音频信号数据的频谱。该方法还包括从频谱中提取周期性指示。该方法还包括将周期性指示和频谱的分量输入神经网络。该方法还包括估计来自神经网络的声音识别信息。
根据本发明的又一方面,提供了一种包括处理器的装置。该装置还包括一个或多个计算机可读介质,它们共同包括指令,当由处理器执行时,使得处理器获得音频信号数据的频谱,从频谱中提取周期性指示,输入周期性指示和频谱的分量进入神经网络,并估计来自神经网络的声音识别信息。
从以下结合附图阅读的本发明的说明性实施例的详细描述中,这些和其他特征和优点将变得显而易见。
附图说明
以下描述将参考以下附图提供本发明优选实施例的细节,其中:
图1示出了根据本发明实施例的装置10的示例性配置;
图2示出了根据本发明实施例的音频信号中观察到的频谱的频谱图。
图3示出了根据本发明实施例的操作流程;
图4示出了根据本发明实施例的对应于S130的操作子流程。
图5示出了根据本发明实施例的对应于S150的操作子流程。
图6示出了根据本发明实施例的对数功率谱。
图7示出了根据本发明实施例的倒谱;
图8示出了根据本发明实施例的截止倒谱;
图9示出了根据本发明实施例的I-DCT频谱。
图10示出了根据本发明实施例的周期性指示;
图11示出了根据本发明实施例的经Mel滤波的周期性指示;
图12示出了根据本发明实施例的深度神经网络;
图13示出了根据本发明实施例的卷积神经网络。
图14示出了根据本发明实施例的深度神经网络;
图15示出了根据本发明实施例的卷积神经网络;以及
图16示出了根据本发明实施例的用作系统的计算机800的示例性硬件配置。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780084735.9/2.html,转载请声明来源钻瓜专利网。