[发明专利]一种语音唤醒方法及其系统有效
申请号: | 201810070799.X | 申请日: | 2018-01-25 |
公开(公告)号: | CN108198548B | 公开(公告)日: | 2020-11-20 |
发明(设计)人: | 张李;王欢良;鄢楷强;唐浩元;王佳珺 | 申请(专利权)人: | 苏州奇梦者网络科技有限公司 |
主分类号: | G10L15/10 | 分类号: | G10L15/10;G10L15/14;G10L15/16;G10L15/22;G10L25/69 |
代理公司: | 苏州国诚专利代理有限公司 32293 | 代理人: | 韩凤 |
地址: | 215024 江苏省苏州*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 唤醒 方法 及其 系统 | ||
本发明公开了一种语音唤醒方法和系统,方法包括:步骤1)获取输入的实时音频流数据,利用语音检测算法对输入的实时音频流数据进行检测,如果发现语音数据,则启动唤醒词检测算法;否则,停止唤醒词检测算法,继续检测;步骤2)利用唤醒词检测算法对输入的语音数据流进行分析检测,计算语音数据和给定唤醒词模型的相似度;如果相似度大于给定阈值T1,则认为是检测到了唤醒词,启动唤醒词确认算法,并传入假定唤醒词的语音数据;否则,继续检测唤醒词,直到语音数据流结束;步骤3)利用唤醒词确认算法对接收到的唤醒词检测算法判定为唤醒词的语音数据流进行分析计算,计算在该语音片段上唤醒词的置信度。
技术领域
本发明属于一种语音唤醒方法及其系统。
背景技术
语音唤醒是当前具备语音交互能力的智能产品和服务的核心功能之一。当前主流的语音唤醒技术是采用隐马尔科夫模型或者深度神经网络对唤醒词进行针对性建模。这样的模型只能根据语音信号区分唤醒词和非唤醒词。由于语音是连续且渐变的,必然有一些语音处于唤醒词和非唤醒词的临界区域,并且总有一些语音其发音和唤醒词很像,这样就会经常使得模型产生误判,从而导致高的误唤醒率。目前大多数具有语音唤醒功能的产品和服务,都存在较严重的误唤醒问题。
发明内容
针对当前方法误唤醒率高的问题,本发明公开一套新的语音唤醒方案和系统。
本发明解决上述技术问题所采取的技术方案如下:
一种语音唤醒方法,包括:
步骤1)获取输入的实时音频流数据,
利用语音检测算法对输入的实时音频流数据进行检测,如果发现语音数据,则启动唤醒词检测算法;
否则,停止唤醒词检测算法,继续检测;
步骤2)利用唤醒词检测算法对输入的语音数据流进行分析检测,计算语音数据和给定唤醒词模型的相似度;
如果相似度大于给定阈值T1,则认为是检测到了唤醒词,启动唤醒词确认算法,并传入假定唤醒词的语音数据;否则,继续检测唤醒词,直到语音数据流结束;
步骤3)利用唤醒词确认算法对接收到的唤醒词检测算法判定为唤醒词的语音数据流进行分析计算,计算在该语音片段上唤醒词的置信度;
如果置信度大于给定阈值T2,则判定给语音片段为唤醒词语音,输出信号1,启动后续的处理动作;否则,判定为非唤醒词,输出信号0,通知唤醒词检测算法继续检测。
优选的是,步骤2)中,所述唤醒词检测算法采用基于HMM或者DNN模型的唤醒词依赖的检测算法。
优选的是,步骤3)中,具体包括:S3.1:提取假定为唤醒词的语音数据片段的特征;
S3.2:把唤醒词发音拆分成基本声学建模单元的序列,即状态或者音素;其中状态或者音素是对应的通用声学模型参数库中的基本声学单元;
S3.3:计算给定唤醒词基本声学单元序列下语音数据片段的似然度,记为L1;
S3.4:构建一个基本声学建模单元全连接的解码网络,即状态或者音素构成的解码网络;
S3.5:基于该解码网络,对语音数据片段进行解码,得到似然度得分最高的解码路径对应的似然度,记为L2;
S3.6:计算上述两个似然度的差值作为该语音片段是唤醒词的置信度,记为D=S(L1-L2);如果D大于给定阈值T2,则确认该语音片段是唤醒词,输出1;否则,确认该语音片段是非唤醒词,输出0。其中S(.)是一个修正的Sigmoid函数。
一种语音唤醒系统,包括:
语音检测模块,用于获取输入的实时音频流数据,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州奇梦者网络科技有限公司,未经苏州奇梦者网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810070799.X/2.html,转载请声明来源钻瓜专利网。