[发明专利]一种人工智能的音频数据处理方法及装置、存储介质有效
申请号: | 201910809323.8 | 申请日: | 2018-11-15 |
公开(公告)号: | CN110517679B | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | 郑脊萌;高毅;黎韦伟;于蒙 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/06;G10L15/26 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 赵翠萍;张颖玲 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 人工智能 音频 数据处理 方法 装置 存储 介质 | ||
本发明实施例提供了一种人工智能的音频数据处理方法及装置、存储介质,该方法包括:获取语音检测模型,所述语音检测模型为具有历史积累特性的至少一个检测通路的音频数据和语音识别结果的对应关系;当检测到的至少一个检测通路的数量为一个时,基于当前检测结果进行重置语音检测模型的重置时间点;当检测到的至少一个检测通路的数量为大于一个时,基于当前时间点进行重置语音检测模型的重置时间点;其中,所述重置时间点为在保证语音识别性能的情况下,初始化所述语音检测模型中的历史积累的时刻;在所述重置时间点到达时,重置所述语音检测模型。
本申请基于申请号为201811361659.4、申请日为2018年11月15日、发明名称为一种音频数据处理方法及装置、存储介质的中国专利申请提出,在该中国专利申请记载的范围内提出分案,该中国专利申请的全部内容在此引入本申请作为参考。
技术领域
本发明涉及人工智能领域中的语音识别技术,尤其涉及一种人工智能的音频数据处理方法及装置、存储介质。
背景技术
随着人工智能(AI,Artificial Intelligence)在各个领域中的应用越来越多,成为了各个领域进行决策和预测的一种重要手段。例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
目前,电子领域的语音交互智能设备主要是智能音箱,例如,带语音控制功能的智能电视或电视盒子等产品。这些语音交互智能设备等类似产品中一般都会设置一个或多个唤醒词。以智能音箱为例进行说明,当用户对智能音箱说出唤醒词并被智能音箱检测到之后,用户接下来说出的语音数据(音频数据)才被当语音命令送给智能音箱,进行语音识别,进而开启人机之间的语音交互功能。一般采用长短期记忆单元模型(LSTM,Long ShortTerm Memory)作为的唤醒检测模型来进行唤醒词的检测。
然而,由于LSTM的一个重要特征是历史信息积累特性,即采用LSTM进行语音识别时,对一段语音数据(例如,唤醒词的语音数据)的检测结果不仅与这段语音数据的本身相关,也受到这段语音数据之前的音频数据的巨大影响。因此,在唤醒词的检测中,免不了存在误唤醒的问题,并且在一段时间的噪声积累之后,噪声数据的积累对之后的唤醒词的检测性能产生影响,从而导致了唤醒词的语音识别的准确率下降。
发明内容
本发明实施例提供一种人工智能的音频数据处理方法及装置、存储介质,能够提高语音识别的准确率。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种人工智能的音频数据处理方法,包括:
获取语音检测模型,所述语音检测模型为具有历史积累特性的至少一个检测通路的音频数据和语音识别结果的对应关系;
当检测到的至少一个检测通路的数量为一个时,基于当前检测结果进行重置语音检测模型的重置时间点;
当检测到的至少一个检测通路的数量为大于一个时,基于当前时间点进行重置语音检测模型的重置时间点;
其中,所述重置时间点为在保证语音识别性能的情况下,初始化所述语音检测模型中的历史积累的时刻;
在所述重置时间点到达时,重置所述语音检测模型。
本发明实施例提供一种人工智能的音频数据处理装置,包括:
获取单元,用于获取语音检测模型,所述语音检测模型为具有历史积累特性的至少一个检测通路的音频数据和语音识别结果的对应关系;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910809323.8/2.html,转载请声明来源钻瓜专利网。