[发明专利]语音识别方法与装置在审

申请号：	201510793497.1	申请日：	2015-11-17
公开（公告）号：	CN106782546A	公开（公告）日：	2017-05-31
发明（设计）人：	黄石磊;王昕;刘轶;程刚	申请（专利权）人：	深圳市北科瑞声科技有限公司
主分类号：	G10L15/26	分类号：	G10L15/26;G10L15/28;G10L15/34
代理公司：	广州华进联合专利商标代理有限公司44224	代理人：	刘诚
地址：	518057 广东省深圳市南山区***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种语音识别方法及装置，特别地，涉及一种基于云端语音识别的低时延语音识别方法与相应的装置。

背景技术

移动设备尤其是智能手机等一般采用多种交互方式，而其中以语音识别为主要技术的语音交互是移动设备上重要的交互方式。

语音识别(Speech Recognition)技术，也被称为自动语音识别(Automatic Speech Recognition，ASR)，其目标是语音中的内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列并进行相应的操作。

语音识别的主流技术是基于因马尔科夫模型(Hidden Markov Model,HMM)，常用的是连续分布的HMM模型，称为CDHMM。在语音识别任务中，一般需要声学模型(Acoustic Model)和语言模型(Language Model)。

对于移动设备来说，语音识别任务的运算量很大，特别是一些信息查询任务是大词表连续语音识别(Large Vocabulary Continuous Speech Recognition,LVCSR)，需要较大的运算量。

一种解决方案是采用基于云端的语音识别。通过在移动客户端把语音或者语音特征上传到云端(亦即，服务器端)，在服务器端进行语音识别，然后把语音识别的结果传到移动客户端。通过云端的配合，使得移动客户端的运算量比较小，并将主要的运算量集中在云端服务器，这样有利于采用更为复杂的、准确率更好的语音识别算法，同时可以方便地和其他的应用服务结合起来。然而，这种全然由云端进行语音识别计算的缺点是传输的延时较大，从客户端语音录制完毕，到云端服务器处理完毕，再到客户端获得云端服务器进行语音识别处理所得到的相关信息、并作出正确的动作，其间发生的延时一般都在几百毫秒到秒级别，用户的体验较差。

发明内容

基于此，有必要提供一种降低延迟的语音识别方法，以及相应的语音识别装置。

一种语音识别方法，包括：

接收第一语音输入，并将所接收的第一语音输入转换为第一数字信号；

将所述第一数字信号传送至云端；

接收根据所述第一数字信号生成的第一后处理结果；

接收第二语音输入，并将所接收的第二语音输入转换为第二数字信号；

利用第一语音识别模型对所述第二数字信号进行第一语音识别；

将所述第一后处理结果与对所述第二数字信号进行的第一语音识别的识别结果进行比较，以确定所述语音识别的结果。

优选地，所述第一后处理结果包括多个可能的后处理结果，其中所述将第一后处理结果与对第二数字信号进行的第一语音识别的识别结果进行比较包括：

将所述对第二数字信号进行的第一语音识别的识别结果与所述多个可能的后处理结果进行比较；

确定所述多个可能的后处理结果中与所述对第二数字信号进行的第一语音识别的识别结果最相似的后处理结果为所述比较的结果。