[发明专利]语音数据处理方法和装置在审
申请号: | 201810920390.2 | 申请日: | 2018-08-14 |
公开(公告)号: | CN109147779A | 公开(公告)日: | 2019-01-04 |
发明(设计)人: | 甘津瑞;张顺 | 申请(专利权)人: | 苏州思必驰信息科技有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/30;G10L15/06;G10L15/18 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 方挺;黄谦 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音指令 语音数据处理 音频数据 时间段 唤醒 方法和装置 服务器端 预设 自动语音识别 接收服务器 时间段结束 发送 接收用户 实时检测 客户端 检测 响应 追溯 成功 返回 | ||
本发明公开语音数据处理方法和装置,其中,一种语音数据处理方法,用于客户端,包括:接收用户的第一语音指令,基于第一语音指令和预设唤醒词向服务器端发送开启预设唤醒词的自动语音识别训练和识别的请求;接收服务器端返回的是否成功唤醒的结果;响应于成功唤醒,根据设置的第一时间段检测用户是否在第一时间段内发出第二语音指令;响应于在第一时间段内检测到用户发出的第二语音指令,将第二语音指令的音频数据的起点追溯到第一语音指令的音频数据的起点;自第一语音指令的音频数据的起点开始依次将第一语音指令和实时检测到的第二语音指令发送至服务器端进行识别直至第一时间段结束。
技术领域
本发明属于语音数据技术领域,尤其涉及语音数据处理方法和装置。
背景技术
相关技术中,某些方案提供的“唤醒识别”是基于其语音唤醒技术,支持用户直接将唤醒词和工作命令一同说出,例如:叮咚叮咚,我想听周杰伦的歌,客户端会在唤醒后直接启动识别以及语义理解等服务,缩短交互时间。另一些方案提供的“唤醒识别连续说”是基于其语音唤醒技术,支持唤醒和识别需求的连续表达,例如:你好小度,请帮我找一间咖啡厅。
发明人在实现本申请的过程中发现:尽管以上技术能够做到唤醒时直接启动识别以及语义理解,但是是将对语音唤醒和语音识别两个基础语音技术做了联通,并不是从唤醒到结束的完整对话闭环。对于高度定制化的项目,其可定制性、可靠性、便捷性都会略显不足。
其中,对于可定制性,现有技术仅能定制唤醒词,并不能定制唤醒之后续流程。比如:唤醒之后有继续说和没有说话,这种边界情况的界定和处理。对于可靠性,现有技术中如果唤醒词和后面说的话连接很紧,会有识别结果丢字和影响识别率的风险。对于便捷性,现有技术仅仅靠对唤醒和识别的联通,无法满足全链路对话的定制,尤其是多轮对话。这些如果靠开发者编码实现、维护这个完整闭环,极大的占用精力和时间。
发明内容
本发明实施例提供一种语音数据处理方法和装置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种语音数据处理方法,用于客户端,包括:接收用户的第一语音指令,基于所述第一语音指令和预设唤醒词向服务器端发送开启所述预设唤醒词的自动语音识别训练和识别的请求;接收所述服务器端返回的是否成功唤醒的结果;响应于成功唤醒,根据设置的第一时间段检测用户是否在第一时间段内发出第二语音指令;响应于在第一时间段内检测到用户发出的第二语音指令,将所述第二语音指令的音频数据的起点追溯到所述第一语音指令的音频数据的起点;自所述第一语音指令的音频数据的起点开始依次将所述第一语音指令和实时检测到的所述第二语音指令发送至所述服务器端进行识别直至第一时间段结束。
第二方面,本发明实施例提供一种语音数据处理方法,用于服务器端,包括:基于客户端的开启预设唤醒词的自动语音识别训练和识别的请求,训练基于所述预设唤醒词的微型自动语音识别模型,其中,所述请求中包括预设唤醒词和第一语音指令;基于所述微型自动语音识别模型识别所述第一语音指令是否与所述预设唤醒词匹配;向所述客户端反馈是否成功唤醒的结果。
第三方面,本发明实施例提供一种语音数据处理装置,用于客户端,包括:请求模块,配置为接收用户的第一语音指令,基于所述第一语音指令和预设唤醒词向服务器端发送开启所述预设唤醒词的自动语音识别训练和识别的请求;唤醒结果模块,配置为接收所述服务器端返回的是否成功唤醒的结果;唤醒设置模块,配置为响应于成功唤醒,根据设置的第一时间段检测用户是否在第一时间段内发出第二语音指令;起点确定模块,配置为响应于在第一时间段内检测到用户发出的第二语音指令,将所述第二语音指令的音频数据的起点追溯到所述第一语音指令的音频数据的起点;发送模块,配置为自所述第一语音指令的音频数据的起点开始依次将所述第一语音指令和实时检测到的所述第二语音指令发送至所述服务器端进行识别直至第一时间段结束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州思必驰信息科技有限公司,未经苏州思必驰信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810920390.2/2.html,转载请声明来源钻瓜专利网。