[发明专利]一种语音唤醒方法、装置以及电子设备在审
申请号: | 201710514348.6 | 申请日: | 2017-06-29 |
公开(公告)号: | CN107358951A | 公开(公告)日: | 2017-11-17 |
发明(设计)人: | 王志铭;周俊;李小龙 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/26;G10L15/16;G10L15/06 |
代理公司: | 北京晋德允升知识产权代理有限公司11623 | 代理人: | 周莉娜 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 唤醒 方法 装置 以及 电子设备 | ||
技术领域
本说明书涉及计算机软件技术领域,尤其涉及一种语音唤醒方法、装置以及电子设备。
背景技术
随着移动设备的快速发展,语音相关技术也变得越来越普遍。比如,越来越流行的会话助理,如苹果的Siri,微软的Cortana和亚马逊的Alexa都使用语音识别来增强用户体验和提高自然人机交互的水平。
其中,一种重要的语音交互技术是关键词检测(Keyword Spotting,KWS),一般也可以称为语音唤醒,基于现有技术,需要不依赖关键词特定的语音数据的语音唤醒方案。
发明内容
本说明书实施例提供一种语音唤醒方法、装置以及电子设备,用以解决如下技术问题:需要不依赖关键词特定的语音数据的语音唤醒方案。
为解决上述技术问题,本说明书实施例是这样实现的:
本说明书实施例提供的一种语音唤醒方法,包括:
语音数据被输入到利用通用的语音数据训练的语音唤醒模型,所述语音唤醒模型输出用于确定是否进行语音唤醒的结果,其中,所述语音唤醒模型包含深度神经网络和联结主义时间分类器。
本说明书实施例提供的一种语音唤醒装置,包括:输入模块、语音唤醒模型;
语音数据被所述输入模块输入到利用通用的语音数据训练的所述语音唤醒模型,所述语音唤醒模型输出用于确定是否进行语音唤醒的结果,其中,所述语音唤醒模型包含深度神经网络和联结主义时间分类器。
本说明书实施例提供的一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
语音数据被输入到利用通用的语音数据训练的语音唤醒模型,所述语音唤醒模型输出用于确定是否进行语音唤醒的结果,其中,所述语音唤醒模型包含深度神经网络和联结主义时间分类器。
本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:可以不依赖关键词特定的语音数据,而是可以采用容易获得的通用的语音数据训练语音唤醒模型,进而将训练的语音唤醒模型用于语音唤醒,有利于提高语音唤醒准确率。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书的方案在一种实际应用场景下涉及的一种整体架构示意图;
图2为本说明书实施例提供的一种语音唤醒方法的流程示意图;
图3为本说明书实施例提供的图2中的语音唤醒模型的一种框架示意图;
图4为本说明书实施例提供的一种实际应用场景下,图3中的特征提取模块的特征提取示意图;
图5为本说明书实施例提供的一种实际应用场景下,图3中的深度神经网络的结构示意图;
图6为本说明书实施例提供的一种实际应用场景下,图3中的联结主义时间分类器的结构示意图;
图7为本说明书实施例提供的对应于图2的一种语音唤醒装置的结构示意图。
具体实施方式
本说明书实施例提供一种语音唤醒方法、装置以及电子设备。
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
为了便于理解,对本说明书的方案的思路进行说明:本说明书使用通用的语音数据,对包含深度神经网络(Deep Neural Networks,DNN)和联结主义时间分类器(Connectionist Temporal Classifier,CTC)的语音唤醒模型进行训练,训练的语音唤醒模型可以用于语音唤醒,并且支持用户自定义语音唤醒触发的关键词;进一步地,该语音唤醒模型可以在诸如手机、家电等低功耗设备上使用,原因在于该语音唤醒模型包含的深度神经网络相对可以不太复杂,比如可以只有3~4层,每层两三百个节点。可以称该语音唤醒模型为CTC-KWS,这里的KWS即为背景技术中提到的关键词检测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710514348.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:服务机器人语音交互系统
- 下一篇:来电呼入处理方法、装置、存储介质及终端