[发明专利]基于拼音的语音唤醒方法、装置和计算机设备有效
申请号: | 202010312174.7 | 申请日: | 2020-04-20 |
公开(公告)号: | CN111210830B | 公开(公告)日: | 2020-08-11 |
发明(设计)人: | 徐泓洋;王广新;杨汉丹 | 申请(专利权)人: | 深圳市友杰智新科技有限公司 |
主分类号: | G10L17/24 | 分类号: | G10L17/24;G10L17/04;G10L17/18 |
代理公司: | 深圳市明日今典知识产权代理事务所(普通合伙) 44343 | 代理人: | 王杰辉 |
地址: | 518000 广东省深圳市南山区招商*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 拼音 语音 唤醒 方法 装置 计算机 设备 | ||
本申请揭示了基于拼音的语音唤醒方法,包括:接收指定神经网络模型计算第二音频数据得到的第二概率向量;根据第二概率向量和第一时刻更新的第一前置概率向量,输出第二音频数据对应的指定概率值;根据第二音频数据对应的指定概率值,更新第一前置概率向量,得到第二前置概率向量;根据第二前置概率向量,输出第三时刻的第三音频数据对应的指定概率值,并更新第二前置概率向量,直至实时音频流检测完毕;输出实时音频流对应的最大概率值,以及实时音频流对应的拼音序列;判断拼音序列中是否存在预设唤醒词对应的目标拼音序列;若是,则根据目标拼音序列进行唤醒。通过设置前置概率向量,实现检测结果的实时记录与更新,加快响应效率。
技术领域
本申请涉及到计算机领域,特别是涉及到基于拼音的语音唤醒方法、装置和计算机设备。
背景技术
在自定义唤醒词系统中,或者自定义命令词识别模型中,现有技术一般采用音素序列预测或者音节分类的方法,通过预测的音素序列与设定的音素序列进行比对来确定下一步的操作。但语音识别场景中要面对同音字、近音字、多音字等复杂情况,且无法实现流式的高效识别,导致唤醒灵敏度差,唤醒效果不佳。
发明内容
本申请的主要目的为提供基于拼音的语音唤醒方法,旨在解决现有语音唤醒被唤醒的灵敏度不高的技术问题。
本申请提出一种基于拼音的语音唤醒方法,包括:
接收指定神经网络模型计算第二音频数据得到的第二概率向量,其中,所述第二音频数据为实时音频流第二时刻对应的音频数据;
根据所述第二概率向量和第一时刻更新的第一前置概率向量,输出所述第二音频数据对应的指定概率值,其中,所述第一时刻为所述第二时刻的前一时刻;
根据所述第二音频数据对应的指定概率值,更新所述第一前置概率向量,得到第二前置概率向量;
根据所述第二前置概率向量,输出第三时刻的第三音频数据对应的所述指定概率值,并更新所述第二前置概率向量,根据所述第一时刻、所述第二时刻以及所述第三时刻的处理过程,依次进行至所述实时音频流检测完毕,其中,所述第三时刻为所述第二时刻的后一时刻;
输出所述实时音频流对应的最大概率值,以及所述实时音频流对应的拼音序列;
判断所述拼音序列中是否存在预设唤醒词对应的目标拼音序列;
若是,则根据所述目标拼音序列进行唤醒。
优选地,所述接收指定神经网络模型计算第二音频数据得到的第二概率向量的步骤之前,包括:
获取唤醒词样本包含的真实拼音类别,以及特定的混淆音对应的混淆拼音;
将所述混淆拼音合并入指定拼音类别,以将所述真实拼音类别处理为训练拼音类别,其中,所述指定拼音类别属于真实拼音类别中的一种,且所述混淆拼音与所述指定拼音类别具有满足预设相似度的发音;
将与所述训练拼音类别对应的拼音样本,输入至所述指定神经网络模型进行训练;
训练过程中时刻判断损失函数是否收敛;
若是,则终止训练并确定所述指定神经网络模型的各参数。
优选地,所述混淆拼音包括前鼻音和/或后鼻音对应的第一类混淆拼音,所述将所述混淆拼音合并入指定拼音类别,以将所述真实拼音类别处理为训练拼音类别的步骤,包括:
获取第一拼音类别中的第一韵母,以及第二拼音类别的第二韵母,其中,所述第一拼音类别和所述第二拼音类别为所述真实拼音类别中的任一种;
判断所述第一韵母和所述第二韵母的发音相似度是否达到第一相似阈值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市友杰智新科技有限公司,未经深圳市友杰智新科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010312174.7/2.html,转载请声明来源钻瓜专利网。