[发明专利]语音识别装置、方法以及电子设备在审

申请号：	201410138192.2	申请日：	2014-04-08
公开（公告）号：	CN104978963A	公开（公告）日：	2015-10-14
发明（设计）人：	石自强;刘汝杰	申请（专利权）人：	富士通株式会社
主分类号：	G10L15/183	分类号：	G10L15/183
代理公司：	北京三友知识产权代理有限公司 11127	代理人：	陶海萍
地址：	日本神奈***	国省代码：	日本;JP
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音识别装置方法以及电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别装置、方法以及电子设备。

背景技术

关键词识别（Keyword Recognition，KWR）是语音识别的一个分支，又称关键词检出（Keyword Spotting，KWS），是从语音中识别出一组给定的词，即关键词，而忽略除关键词以外的其它词和各种非话音。关键词识别与连续语音识别的不同之处主要是：连续语音识别要求识别出语音的所有内容，而关键词识别则只要求从语音中识别出关键词即可。

现有技术中，通常基于声学模型来识别语音中的关键词：例如，可以直接根据语音的声学模型，来识别关键词，但这种方法容易产生错误拒绝（False Rejection，FR）和错误接受（False Alarm，FA）；在一些改进的方案中，可以构建填充（Filler）模型来提高关键词识别的准确性，或者，可以在构建填充模型的基础上进一步构建混淆词，从而进一步提高关键词识别的准确性，其中，填充模型和混淆词都是基于声学模型而构建的。

应该注意，上面对技术背景的介绍只是为了方便对本发明的技术方案进行清楚、完整的说明，并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本发明的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

发明内容

现有技术通常是基于声学模型来识别关键词，对于发音与其它词比较接近的关键词而言，错误识别的比率仍然较高。例如，对于许多发音较短的关键词而言，很容易与其它词具有相似的发音，如“师长”与“市场”、“年事”与“您是”、“爱心”与“A型”等，因此，采用现有技术中基于声学模型的关键词识别方法很难准确识别出这些关键词。此外，对于基于填充模型和混淆词的方法而言，还存在这样的缺陷：随着关键词或应用环境的变化，混淆词需要重新设计和训练，无法适应多样化的任务和使用条件。

本发明实施例提供一种语音识别装置、方法以及电子设备，能够结合上下文的语义信息，进行关键词识别，解决了相似发音导致的误识别问题。

根据本发明实施例的第一方面，提供一种语音识别装置，该装置包括：

识别单元，其用于对语音进行识别，以获得候选关键词；

解码单元，其结合语义信息，对所述语音中包含识别出所述候选关键词的语音的语音进行解码，以生成与所述包含识别出所述候选关键词的语音的语音对应的词语网格；

计算单元，其根据所述词语网格，计算所述候选关键词的置信度；

判断单元，其根据所述置信度，判断是否将所述候选关键词确定为关键词。

根据本发明实施例的第二方面，提供一种电子设备，其具有如上述第一方面所述的语音识别装置。

根据本发明实施例的第三方面，提供一种语音识别方法，该方法包括：

对语音进行识别，以获得候选关键词；

结合语义信息，对所述语音中包含识别出所述候选关键词的语音的语音进行解码，以生成与所述包含识别出所述候选关键词的语音的语音对应的词语网格；根据所述词语网格，计算所述候选关键词的置信度；

根据所述置信度，判断是否将所述候选关键词确定为关键词。

本发明的有益效果在于：通过结合语义信息，对初步识别的候选关键词进行进一步地识别，可降低错误识别的概率，提高语音识别的准确性。