[发明专利]设备唤醒相关方法、装置及故事机在审
申请号: | 202010481877.2 | 申请日: | 2020-05-28 |
公开(公告)号: | CN113744732A | 公开(公告)日: | 2021-12-03 |
发明(设计)人: | 刘章;田彪;李昀;王子腾;纳跃跃 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/26;G10L15/02;G10L21/0208;G10L25/84 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 钱秀茹 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 设备 唤醒 相关 方法 装置 事机 | ||
本申请公开了设备唤醒相关系统、方法、装置及设备。其中,所述设备唤醒方法包括:确定上一个语音帧的唤醒词概率;根据唤醒词概率和上一个语音帧,调整滤波系数;根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;根据抑制人声噪音后的当前语音帧识别唤醒词,以将设备调整至唤醒状态。采用这种处理方式,使得结合上一语音帧的唤醒反馈,更新波束形成滤波器系数,这样就可以区分目标语音和人声噪声,得到可靠的降噪效果;因此,可以有效提升设备在高度嘈杂人声干扰下的唤醒性能。
技术领域
本申请涉及自动化控制技术领域,具体涉及设备唤醒系统、方法和装置,语音会议纪要系统、方法和装置,服务启动系统、方法和装置,故事机,智能音箱,以及电子设备。
背景技术
近年来随着语音识别技术的进步,具有语音唤醒功能的智能故事机得到了广泛的应用。由于现有声学模型技术无法有效克服泡沫噪声和人声干扰的影响,在高度嘈杂人声干扰下,语音唤醒效果会急剧下降。
基于麦克风阵列信号处理技术可以大幅度提高信噪比和语音系统的性能。波束形成是一类常用的阵列信号处理算法,具有计算量小,易部署等优点,适用于硬件性能有限的故事机。目前,波束形成技术主要需要语音活动检测(Voice Activity Detection,VAD)来区分噪声与目标声源来提供信息输入。
然而,在实现本发明过程中,发明人发现该技术方案至少存在如下问题:传统的VAD在人声噪声下会失效,由此导致严重降低故事机在人声干扰噪声情况下的唤醒性能。综上所述,如何改进波束形成方案,以区分人声噪音和目标声源,从而提高故事机在高度嘈杂人声干扰下的唤醒性能,成为本领域技术人员迫切需要解决的技术问题。
发明内容
本申请提供设备唤醒方法,以解决现有技术存在的在高度嘈杂人声干扰下唤醒性能较低的问题。本申请另外提供设备唤醒系统和装置,语音会议纪要系统、方法和装置,服务启动系统、方法和装置,故事机,智能音箱,以及电子设备。
本申请提供一种设备唤醒方法,包括:
确定上一个语音帧的唤醒词概率;
根据唤醒词概率和上一个语音帧,调整滤波系数;
根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;
根据抑制人声噪音后的当前语音帧识别唤醒词,以将设备调整至唤醒状态。
可选的,所述确定上一个语音帧的唤醒词概率,包括:
根据调整前的滤波系数,对上一个语音帧执行语音增强处理;
确定语音增强后的上一个语音帧中唤醒词相关声学单元的声学概率;
根据所述唤醒词相关声学单元的声学概率,确定所述唤醒词概率。
可选的,所述根据所述唤醒词相关声学单元的声学概率,确定所述唤醒词概率,包括:
将最大的声学概率作为所述唤醒词概率。
可选的,还包括:
根据语音帧的采集时间,将各个语音帧顺序存储至缓存队列;
根据确定所述声学概率的处理时长,从所述缓存队列中读取上一个语音帧。
可选的,所述根据唤醒词概率和上一个语音帧,调整滤波系数,包括:
将唤醒词概率作为上一个语音帧的权重,确定目标协方差矩阵和噪声协方差矩阵;
通过波束形成算法,根据目标协方差矩阵和噪声协方差矩阵,确定所述调整后的滤波系数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010481877.2/2.html,转载请声明来源钻瓜专利网。