[发明专利]音频信号处理方法、装置、设备及存储介质在审
申请号: | 201910604779.0 | 申请日: | 2019-07-05 |
公开(公告)号: | CN112185425A | 公开(公告)日: | 2021-01-05 |
发明(设计)人: | 徐涛;曹元斌 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G10L25/87 | 分类号: | G10L25/87;G10L25/03;G10L15/22 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 彭琼 |
地址: | 开曼群岛*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 信号 处理 方法 装置 设备 存储 介质 | ||
本发明实施例提供一种音频信号处理方法、装置、设备及存储介质,该方法包括:首先,在已唤醒语音端点检测VAD的情况下,确定接收到的音频信息中的语音特征;其次,识别已播放的语音合成音频是否包括语音特征;然后,在语音合成音频包括语音特征的情况下,确定语音特征为错误唤醒VAD。由此,解决了设备端“自己跟自己对话”的问题,提高智能语音交流的准确率。
技术领域
本发明是涉及语音处理技术领域,尤其涉及一种音频信号处理方法、装置、设备及存储介质。
背景技术
随着人工智能技术和计算机的飞速发展,智能语音对话被广泛的开发和利用,人与设备的智能语音交流受到广泛关注。
为了实现设备端实时响应人类声音语言,设备端(例如:智能音箱)通过语音端点检测(Voice Activity Detection,VAD)确定是否对接收到的音频进行响应。目前,现行的语音端点检测在应用中,可能会出现设备端在播放音频的同时,接收设备端自身播放的音频,并将接收到的正在播放的音频发送至服务端,服务端将会向设备端重复反馈,由此,设备端和服务端将陷入循环。例如:设备端的播放元件正在播放“您好,很高兴认识你”,设备端的接收元件接收到了正在播放的“您好,很高兴认识你”,并将该音频发送至服务端,服务端会对其循环应答,从而出现设备端“自己跟自己对话”的可能性,影响人与设备端的智能语音交流。
发明内容
有鉴于此,本发明一个或多个实施例描述了一种音频信号处理的方法、装置、设备及存储介质,解决了设备端“自己跟自己对话”的问题,提高智能语音交流的准确率。
根据第一方面,提供了一种音频信号处理方法,该方法可以包括:
在已唤醒语音端点检测VAD的情况下,确定接收到的音频信息中的语音特征;
识别已播放的语音合成音频是否包括语音特征;
在语音合成音频包括语音特征的情况下,确定语音特征为错误唤醒VAD。
根据第二方面,提供了一种音频信号处理装置,该装置可以包括:
接收模块,用于在已唤醒语音端点检测VAD的情况下,确定接收到的音频信息中的语音特征;
识别模块,用于识别已播放的语音合成音频是否包括语音特征;
处理模块,用于在语音合成音频包括语音特征的情况下,确定语音特征为错误唤醒VAD。
根据第三方面,提供了一种音箱设备,其中,包括至少一个处理器和存储器,存储器用于存储有计算机程序指令,处理器用于执行存储器的程序,以控制音箱设备实现如第一方面所示的音频信号处理方法。
根据第四方面,提供了一种计算设备,设备包括至少一个处理器和存储器,存储器用于存储有计算机程序指令,处理器用于执行存储器的程序,以控制服务器实现如第一方面所示的音频信号处理方法。
根据第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,若计算机程序在计算机中执行,则令计算机执行如第一方面所示的音频信号处理方法。
利用本发明实施例的方案,通过识别已播放的语音合成音频是否包括接收到的音频信息中语音特征,在语音合成音频包括语音特征的情况下,确定语音特征为错误唤醒VAD。然后,将错误唤醒VAD的语音特征作为训练VAD模型的负样本,从而更新VAD模型,利用更新VAD模型拦截错误唤醒VAD的音频信息。由此,解决了设备端“自己跟自己对话”的问题,降低了语音交互过程中的语音误识别,
提升识别准确率。这里,在降低语音交互系统整体功耗的同时,提升用户体验。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910604779.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种试剂控温的核酸测序系统
- 下一篇:一种天线端口确定方法和通信设备