[发明专利]语音识别装置、方法以及电子设备在审
申请号: | 201410138192.2 | 申请日: | 2014-04-08 |
公开(公告)号: | CN104978963A | 公开(公告)日: | 2015-10-14 |
发明(设计)人: | 石自强;刘汝杰 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G10L15/183 | 分类号: | G10L15/183 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 陶海萍 |
地址: | 日本神奈*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 装置 方法 以及 电子设备 | ||
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音识别装置、方法以及电子设备。
背景技术
关键词识别(Keyword Recognition,KWR)是语音识别的一个分支,又称关键词检出(Keyword Spotting,KWS),是从语音中识别出一组给定的词,即关键词,而忽略除关键词以外的其它词和各种非话音。关键词识别与连续语音识别的不同之处主要是:连续语音识别要求识别出语音的所有内容,而关键词识别则只要求从语音中识别出关键词即可。
现有技术中,通常基于声学模型来识别语音中的关键词:例如,可以直接根据语音的声学模型,来识别关键词,但这种方法容易产生错误拒绝(False Rejection,FR)和错误接受(False Alarm,FA);在一些改进的方案中,可以构建填充(Filler)模型来提高关键词识别的准确性,或者,可以在构建填充模型的基础上进一步构建混淆词,从而进一步提高关键词识别的准确性,其中,填充模型和混淆词都是基于声学模型而构建的。
应该注意,上面对技术背景的介绍只是为了方便对本发明的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本发明的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。
发明内容
现有技术通常是基于声学模型来识别关键词,对于发音与其它词比较接近的关键词而言,错误识别的比率仍然较高。例如,对于许多发音较短的关键词而言,很容易与其它词具有相似的发音,如“师长”与“市场”、“年事”与“您是”、“爱心”与“A型”等,因此,采用现有技术中基于声学模型的关键词识别方法很难准确识别出这些关键词。此外,对于基于填充模型和混淆词的方法而言,还存在这样的缺陷:随着关键词或应用环境的变化,混淆词需要重新设计和训练,无法适应多样化的任务和使用条件。
本发明实施例提供一种语音识别装置、方法以及电子设备,能够结合上下文的语义信息,进行关键词识别,解决了相似发音导致的误识别问题。
根据本发明实施例的第一方面,提供一种语音识别装置,该装置包括:
识别单元,其用于对语音进行识别,以获得候选关键词;
解码单元,其结合语义信息,对所述语音中包含识别出所述候选关键词的语音的语音进行解码,以生成与所述包含识别出所述候选关键词的语音的语音对应的词语网格;
计算单元,其根据所述词语网格,计算所述候选关键词的置信度;
判断单元,其根据所述置信度,判断是否将所述候选关键词确定为关键词。
根据本发明实施例的第二方面,提供一种电子设备,其具有如上述第一方面所述的语音识别装置。
根据本发明实施例的第三方面,提供一种语音识别方法,该方法包括:
对语音进行识别,以获得候选关键词;
结合语义信息,对所述语音中包含识别出所述候选关键词的语音的语音进行解码,以生成与所述包含识别出所述候选关键词的语音的语音对应的词语网格;根据所述词语网格,计算所述候选关键词的置信度;
根据所述置信度,判断是否将所述候选关键词确定为关键词。
本发明的有益效果在于:通过结合语义信息,对初步识别的候选关键词进行进一步地识别,可降低错误识别的概率,提高语音识别的准确性。
参照后文的说明和附图,详细公开了本发明的特定实施方式,指明了本发明的原理可以被采用的方式。应该理解,本发明的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内,本发明的实施方式包括许多改变、修改和等同。
针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在,但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。
附图说明
所包括的附图用来提供对本发明实施例的进一步的理解,其构成了说明书的一部分,用于例示本发明的实施方式,并与文字描述一起来阐释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本发明实施例1的语音识别装置的组成示意图;
图2是是基于填充模型的关键词识别搜索网络示意图;
图3是本发明实施例1的词语网格示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410138192.2/2.html,转载请声明来源钻瓜专利网。