[发明专利]语音识别方法与装置在审

专利信息
申请号: 201510793497.1 申请日: 2015-11-17
公开(公告)号: CN106782546A 公开(公告)日: 2017-05-31
发明(设计)人: 黄石磊;王昕;刘轶;程刚 申请(专利权)人: 深圳市北科瑞声科技有限公司
主分类号: G10L15/26 分类号: G10L15/26;G10L15/28;G10L15/34
代理公司: 广州华进联合专利商标代理有限公司44224 代理人: 刘诚
地址: 518057 广东省深圳市南山区*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 语音 识别 方法 装置
【说明书】:

技术领域

发明涉及一种语音识别方法及装置,特别地,涉及一种基于云端语音识别的低时延语音识别方法与相应的装置。

背景技术

移动设备尤其是智能手机等一般采用多种交互方式,而其中以语音识别为主要技术的语音交互是移动设备上重要的交互方式。

语音识别(Speech Recognition)技术,也被称为自动语音识别(Automatic Speech Recognition,ASR),其目标是语音中的内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列并进行相应的操作。

语音识别的主流技术是基于因马尔科夫模型(Hidden Markov Model,HMM),常用的是连续分布的HMM模型,称为CDHMM。在语音识别任务中,一般需要声学模型(Acoustic Model)和语言模型(Language Model)。

对于移动设备来说,语音识别任务的运算量很大,特别是一些信息查询任务是大词表连续语音识别(Large Vocabulary Continuous Speech Recognition,LVCSR),需要较大的运算量。

一种解决方案是采用基于云端的语音识别。通过在移动客户端把语音或者语音特征上传到云端(亦即,服务器端),在服务器端进行语音识别,然后把语音识别的结果传到移动客户端。通过云端的配合,使得移动客户端的运算量比较小,并将主要的运算量集中在云端服务器,这样有利于采用更为复杂的、准确率更好的语音识别算法,同时可以方便地和其他的应用服务结合起来。然而,这种全然由云端进行语音识别计算的缺点是传输的延时较大,从客户端语音录制完毕,到云端服务器处理完毕,再到客户端获得云端服务器进行语音识别处理所得到的相关信息、并作出正确的动作,其间发生的延时一般都在几百毫秒到秒级别,用户的体验较差。

发明内容

基于此,有必要提供一种降低延迟的语音识别方法,以及相应的语音识别装置。

一种语音识别方法,包括:

接收第一语音输入,并将所接收的第一语音输入转换为第一数字信号;

将所述第一数字信号传送至云端;

接收根据所述第一数字信号生成的第一后处理结果;

接收第二语音输入,并将所接收的第二语音输入转换为第二数字信号;

利用第一语音识别模型对所述第二数字信号进行第一语音识别;

将所述第一后处理结果与对所述第二数字信号进行的第一语音识别的识别结果进行比较,以确定所述语音识别的结果。

优选地,所述第一后处理结果包括多个可能的后处理结果,其中所述将第一后处理结果与对第二数字信号进行的第一语音识别的识别结果进行比较包括:

将所述对第二数字信号进行的第一语音识别的识别结果与所述多个可能的后处理结果进行比较;

确定所述多个可能的后处理结果中与所述对第二数字信号进行的第一语音识别的识别结果最相似的后处理结果为所述比较的结果。

优选地,所述第一语音识别模型为基于声韵母的声学模型和语言模型。

优选地,所述方法进一步包括:

利用第一语音识别模型对所述第一数字信号进行第一语音识别;

将所述第一后处理结果与对所述第一数字信号、第二数字信号进行所述第一语音识别的识别结果进行比较。

优选地,所述方法进一步包括:

将所述第二数字信号传送至云端;

接收根据所述第一数字信号、第二数字信号生成的第二后处理结果;

接收第三语音输入,并所接收的第三语音输入转换为第三数字信号;

利用第一语音识别模型对所述第三数字信号进行第一语音识别;

将所述第二后处理结果与对所述第一数字信号、第二数字信号、第三数字信号进行的第一语音识别的识别结果进行比较,以确定所述语音识别的结果。

优选地,所述方法进一步包括:根据所述比较的结果执行相应动作。

一种语音识别方法,包括:

接收第一数字信号,所述第一数字信号是根据第一语音输入而生成的;

利用第二语音识别模型对所述第一数字信号进行第二语音识别;

根据对所述第一数字信号进行第二语音识别的识别结果,利用后处理模型进行后处理,得到第一后处理结果;

输出所述第一后处理结果。

优选地,所述第二语音识别模型为基于音素三音子的声学模型和统计语言模型。

优选地,所述统计语言模型为基于词的三元统计语言模型(3-Gram)模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市北科瑞声科技有限公司,未经深圳市北科瑞声科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510793497.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top