[发明专利]一种语音识别方法和装置有效
申请号: | 201510595577.6 | 申请日: | 2015-09-17 |
公开(公告)号: | CN105161092B | 公开(公告)日: | 2017-03-01 |
发明(设计)人: | 贺利强;钱胜 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/065 |
代理公司: | 北京品源专利代理有限公司11332 | 代理人: | 孟金喆,胡彬 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 方法 装置 | ||
技术领域
本发明实施例涉及语音识别技术领域,尤其涉及一种语音识别方法和装置。
背景技术
语音识别技术已逐渐普及到我们熟知的各个领域中,语音识别服务支持的场景也伴随着用户需求的增加而逐步增多,比如普通话语音识别、英文语音识别、粤语语音识别和四川话语音识别等。
基于统计的声学模型在选定的实际产品方向中的建模能力非常强,比如普通话语音识别方向、英文语音识别方向和各个方言语音识别方向等。每个产品方向的声学模型可以通过累积语音数据,来进一步提高声学模型的建模能力。但是,实际的语音识别服务场景可能无法有效区分用户的语音内容,从而无法有效的把用户的语音识别请求定位到对应的声学模型上进行语音识别,比如对于普通话的语音识别服务,可能会有说粤语的用户对其进行语音识别请求,或者还可能会有带粤语口音的用户对其进行语音识别请求等。这时普通话的语音识别服务可能无法有效区分上述用户的语音内容,导致语音识别准确率的急剧下降或者识别结果完全不对,给用户的语音识别服务体验带来挫败感。
现有技术中的语音识别服务在处理用户的语音识别请求时,一般都使用单个声学模型,且通常会有如下三种处理方式:
1、专注于特定产品方向的语音识别请求,通过识别结果引导或者在客户端提示用户使用产品方向的语音来获得更好的用户体验。该方式专注于特定产品方向的语音识别请求,一旦用户的语音识别请求和声学模型不匹配,那么用户体验无法保证。例如普通话的语音识别服务只能提供用户的普通话语音识别请求,而无法满足四川话语音识别请求。
2、部分或者全面覆盖用户可能使用的产品方向的语音,该方法通过增加声学模型训练在多个产品方向的语音数据,提高声学模型的产品覆盖能力。该方式会降低声学层面建模单元的区分度,进而导致各个产品方向识别率的普遍降低。
3、为不同产品方向的用户语音识别请求分别提供独立的语音识别服务,将用户的语音识别请求尽可能定位到对应声学模型的语音识别服务中。该方式从产品的角度无法保证将用户的语音识别请求都准确定位到各自对应声学模型的语音识别服务上,而且用户说话方式的多样性也给语音识别服务对应的声学模型带来更多需要解决的问题,例如普通话的语音识别服务在响应用户带粤语口音的普通话语音识别请求时,识别率会显著下降。
发明内容
本发明提供一种语音识别方法和装置,以实现改善用户的语音识别请求的识别性能,提高语音识别准确率,提升用户体验。
第一方面,本发明实施例提供了一种语音识别方法,包括:
对输入语音进行声学特征提取,并根据所述提取的声学特征分别计算多个不同类型的声学模型中各声学建模单元的似然值;
将所述多个不同类型的声学模型中各声学建模单元的似然值进行融合处理;
根据融合处理结果获取所述输入语音的识别结果。
第二方面,本发明实施例还提供了一种语音识别装置,包括:
似然值计算模块,用于对输入语音进行声学特征提取,并根据所述提取的声学特征分别计算多个不同类型的声学模型中各声学建模单元的似然值;
融合处理模块,用于将所述多个不同类型的声学模型中各声学建模单元的似然值进行融合处理;
识别模块,用于根据融合处理结果获取所述输入语音的识别结果。
本发明通过对输入语音进行声学特征提取,并根据所述提取的声学特征分别计算多个不同类型的声学模型中各声学建模单元的似然值,然后将所述多个不同类型的声学模型中各声学建模单元的似然值进行融合处理,并根据融合处理结果获取所述输入语音的识别结果,相比于现有技术,本发明采用多声学模型的融合处理方案,充分利用多个不同类型的声学模型在各自方向上的建模能力,显著改善了用户语音识别请求与声学模型不匹配的问题,增强了语音识别的鲁棒性,识别准确度高,提升了用户体验。
附图说明
图1为本发明实施例一提供的一种语音识别方法的流程图;
图2为本发明实施例一提供的一种声学模型融合示意图;
图3为本发明实施例二提供的一种语音识别方法的流程示意图;
图4为本发明实施例三提供的一种语音识别方法的流程示意图;
图5为本发明实施例三提供的一种声学建模单元的似然值融合示意图;
图6为本发明实施例四提供的一种语音识别装置的结构示意图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510595577.6/2.html,转载请声明来源钻瓜专利网。