[发明专利]一种设定操作的执行方法及装置有效

申请号：	201511029741.3	申请日：	2015-12-31
公开（公告）号：	CN106940998B	公开（公告）日：	2021-04-16
发明（设计）人：	王志铭;李宏言	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/16
代理公司：	北京国昊天诚知识产权代理有限公司 11315	代理人：	黄熊
地址：	英属开曼群岛大开***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种设定操作执行方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种设定操作的执行方法及装置，该方法包括：获得语音信号声学特征，将获得的各语音信号声学特征输入训练好的神经网络模型；其中，对所述神经网络模型进行训练所用的样本，至少包含设定词对应的语音信号声学特征样本；根据训练好的神经网络模型输出的、所述各语音信号声学特征对应于与所述设定词对应的音素的概率，判断是否执行设定操作。本申请中采用的神经网络模型进行计算的方式，可以有效降低计算量级，减少耗费的处理资源。

技术领域

本申请涉及计算机技术领域，尤其涉及一种设定操作的执行方法及装置。

背景技术

随着信息技术的发展，语音唤醒技术由于其非接触式的操控特性，使得用户可以便捷地针对具有语音唤醒功能的设备进行启动控制，从而得到了广泛地应用。

若要实现对设备的语音唤醒，需要在设备中预先设置特定的唤醒词，根据唤醒词和发音词典确定相应的发音音素(其中，发音音素简称为音素，是指唤醒词的发音音节的最小语音单位)。在实际使用时，用户在设备附近的一定范围内说出唤醒词时，设备就会采集用户发出的语音信号，并根据语音信号声学特征，进而判断语音信号声学特征是否与唤醒词的音素相匹配，以确定用户说出的是否为唤醒词，若是，则设备会执行自我唤醒的操作，比如自动启动、或者从休眠状态切换为激活状态，等等。

现有技术中，对于具有语音唤醒功能的设备而言，通常采用隐马尔可夫模型(Hidden Markov Model，HMM)实现上述判断，具体为：在语音唤醒模块中分别预加载唤醒词和非唤醒词的HMM，当接收到用户发出的语音信号后，使用维特比算法对语音信号逐帧解码至音素级别，最后根据解码后的结果，判断用户发出的语音信号的语音声学特征是否与唤醒词的音素相匹配，从而判断出用户说出的是否为唤醒词。

上述现有技术存在的缺陷在于，在采用维特比算法对用户发出的语音信号进行逐帧解码计算的过程中会涉及到动态规划计算，计算量极大，从而导致整个语音唤醒过程耗费较多处理资源。

类似地，在采用上述类似方法，以设定词对应的语音信号声学特征，触发设备执行自我唤醒的操作外的其他设定操作(比如发出指定信号，或者拨打电话，等等)时，也可能面临相同的问题。其中，所述的设定词，是指用于触发设备执行设定操作的语音信号声学特征对应的字或词的统称，前文所述的唤醒词，属于设定词的一种。

发明内容

本申请实施例提供一种设定操作的执行方法，用以解决现有技术中的触发设备执行设定操作的过程会耗费较多处理资源的问题。

本申请实施例还提供一种设定操作的执行装置，用以解决现有技术中的触发设备执行设定操作的过程会耗费较多处理资源的问题。

本申请实施例提供的设定操作的执行方法，包括：

获得语音信号声学特征；

将获得的各语音信号声学特征输入训练好的神经网络模型；其中，对所述神经网络模型进行训练所用的样本，至少包含设定词对应的语音信号声学特征样本；

根据训练好的神经网络模型输出的、所述各语音信号声学特征对应于与所述唤醒词对应的音素的概率，判断是否执行唤醒操作。

本申请实施例提供的设定操作的执行装置，包括：

获取模块，用于获得语音信号声学特征；

神经网络模块，用于将获得的各语音信号声学特征输入训练好的神经网络模型；其中，对所述神经网络模型进行训练所用的样本，至少包含设定词对应的语音信号声学特征样本；