[发明专利]一种设定操作的执行方法及装置有效

申请号：	201511029741.3	申请日：	2015-12-31
公开（公告）号：	CN106940998B	公开（公告）日：	2021-04-16
发明（设计）人：	王志铭;李宏言	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/16
代理公司：	北京国昊天诚知识产权代理有限公司 11315	代理人：	黄熊
地址：	英属开曼群岛大开***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种设定操作执行方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种设定操作的执行方法，其特征在于，包括：

从语音信号帧中获得语音信号声学特征；

将获得的各语音信号声学特征输入训练好的神经网络模型；其中，对所述神经网络模型进行训练所用的样本，至少包含设定词对应的语音信号声学特征样本；

根据训练好的神经网络模型输出的、所述各语音信号声学特征对应于与所述设定词对应的音素的概率，确定所述设定词对应的音素的置信度，并记录相应的时间戳，根据所述置信度和记录的所述时间戳，判断是否执行设定操作；其中，所述时间戳是以帧为单位，表示语音信号声学特征所属的语音信号帧在语音信号中的相对时序次序。

2.如权利要求1所述的方法，其特征在于，从语音信号帧中获得所述语音信号声学特征，包括：

依次针对语音信号帧中的各基准帧，执行：获取语音信号帧中的、在时间轴上排列在基准帧之前的第一数量的语音信号帧的声学特征，以及语音信号帧中的、在时间轴上排列在该基准帧之后的第二数量的语音信号帧的声学特征；

对获取的各声学特征进行拼接，得到所述语音信号声学特征。

3.如权利要求2所述的方法，其特征在于，所述第二数量小于所述第一数量。

4.如权利要求1所述的方法，其特征在于，从语音信号帧中获得语音信号声学特征之前，所述方法还包括：

通过执行语音活动检测VAD，判断是否存在语音信号；

在判断为是时，从语音信号帧中获得语音信号声学特征。

5.如权利要求1所述的方法，其特征在于，采用下述方式，训练所述神经网络模型：

根据所述设定词对应的音素样本的数量确定待训练的深度神经网络中输出层的节点数量；

循环执行下述步骤，直至待训练的深度神经网络所输出的概率分布中的最大概率值，对应的是所述语音信号声学特征样本对应的正确发音的音素：

将训练样本输入至所述待训练的深度神经网络，使得所述待训练的深度神经网络对输入的样本的特征进行前向传播计算直至输出层，使用预设目标函数计算误差，并通过所述深度神经网络从输出层反向传播误差，根据误差逐层调节所述深度神经网络的权重。

6.如权利要求1所述的方法，其特征在于，根据训练好的神经网络模型输出的、所述各语音信号声学特征对应于与所述设定词对应的音素的概率，确定所述设定词对应的音素的置信度，并记录相应的时间戳，根据所述置信度和记录的所述时间戳，判断是否执行设定操作，包括：

确定所述神经网络模型输出的、所述各语音信号声学特征对应于与所述设定词对应的音素的概率中的最大似然概率；

确定获得的各最大似然概率与相应的音素的映射关系；

根据所述映射关系，确定所述设定词对应的音素的置信度，并记录相应的时间戳，根据所述置信度、记录的所述时间戳以及置信度阈值，判断是否执行设定操作。

7.如权利要求6所述的方法，其特征在于，根据所述映射关系，确定所述设定词对应的音素的置信度，并记录相应的时间戳，根据所述置信度、记录的所述时间戳以及置信度阈值，判断是否执行设定操作，具体包括：

针对每一设定词对应的音素，统计与该音素具有映射关系的最大似然概率的数量，作为该音素对应的置信度，并在统计每一与该音素具有映射关系的最大似然概率的数量时，记录相应的时间戳；

判断每一音素的置信度是否均大于置信度阈值，并判断记录的所述时间戳是否单调递增；

若是，则执行所述设定操作；

否则，则不执行所述设定操作。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司，未经阿里巴巴集团控股有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201511029741.3/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载