[发明专利]一种二值化神经网络语音唤醒方法及系统有效

申请号：	202110945699.9	申请日：	2021-08-18
公开（公告）号：	CN113409773B	公开（公告）日：	2022-01-18
发明（设计）人：	乔树山;付冠宇;尚德龙;周玉梅	申请（专利权）人：	中科南京智能技术研究院
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/06;G10L15/16;G10L25/24;G06N3/04;G06N3/08
代理公司：	北京高沃律师事务所 11569	代理人：	王爱涛
地址：	211100 江苏省南京市江宁***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种二值化神经网络语音唤醒方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种二值化神经网络语音唤醒方法及系统。该方法包括：获取待识别音频文件；并提取待识别音频文件的语音特征；根据语音特征和语音唤醒模型，确定待识别音频文件的识别结果；语音唤醒模型通过训练后的二值化的深度可分离卷积神经网络进行建立；语音唤醒模型具体的识别过程为：利用所述第一卷积层对输入进行量化处理；根据量化后的语音特征与网络层的二值量化参数权重以及网络层修正因子做卷积乘法，并将卷积后的数据与第一卷积层的偏置系数做加法；将第一卷积层的输出作为第二卷积层的输入；并将第一卷积层替换为第二卷积层，返回量化的步骤，直至输出识别结果。本发明能够在保证识别准确度的基础上，降低功耗。

技术领域

本发明涉及语音唤醒领域，特别是涉及一种二值化神经网络语音唤醒方法及系统。

背景技术

深度学习已被证明在包括图像分类（Image Classification），目标检测（ObjectDetection），自然语言处理（Natural Language Processing）等任务上效果很好。大量的应用程序都配备了图像（计算机视觉）、语音相关的深度学习算法。

但是全精度网络中网络参数为32位浮点值，会占用硬件的空间，并且网络中存在大量的乘法器，会增加硬件部署难度和计算量，增加功耗。

发明内容

本发明的目的是提供一种二值化神经网络语音唤醒方法及系统，能够在保证识别准确度的基础上，降低功耗。

为实现上述目的，本发明提供了如下方案：

一种二值化神经网络语音唤醒方法，包括：

获取待识别音频文件；并提取所述待识别音频文件的语音特征；所述语音特征包括：梅尔倒谱系数特征矩阵；

根据语音特征和语音唤醒模型，确定待识别音频文件的识别结果；所述语音唤醒模型通过训练后的二值化的深度可分离卷积神经网络进行建立；所述二值化的深度可分离卷积神经网络包括：第一卷积层、第二卷积层以及全连接层；所述语音唤醒模型具体的识别过程为：

利用所述第一卷积层对输入进行量化处理；所述第一卷积层的输入为待识别音频文件的语音特征；

根据量化后的语音特征与网络层的二值量化参数权重以及网络层修正因子做卷积乘法，并将卷积后的数据与第一卷积层的偏置系数做加法，得到第一卷积层的输出；所述网络层修正因子为网络层的参数权重未二值化前的32bit浮点数的按通道均值；

将所述第一卷积层的输出作为第二卷积层的输入；并将所述第一卷积层替换为第二卷积层，返回利用所述第一卷积层对输入进行量化处理的步骤，确定第二卷积层的输出，并重复上述步骤，直至输出识别结果。

可选地，利用所述第一卷积层对输入进行量化处理，具体包括：

利用公式进行量化处理；

其中，为二值化后的参数，x表示参数权重或参数激活值。

可选地，所述根据量化后的语音特征与网络层的二值量化参数权重以及网络层修正因子做卷积乘法，并将卷积后的数据与第一卷积层的偏置系数做加法，得到第一卷积层的输出，具体包括：

利用公式确定偏置系数；

其中，是卷积层的均值，是卷积层的方差，是卷积层的偏置，是卷积层的权重，为常数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中科南京智能技术研究院，未经中科南京智能技术研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110945699.9/2.html，转载请声明来源钻瓜专利网。

上一篇：一种球墨铸铁卷筒
下一篇：一种低延迟检测终端状态的方法、存储介质及系统

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种二值化神经网络语音唤醒方法及系统有效

专利文献下载