[发明专利]语音识别方法以及装置有效

专利信息
申请号: 201510558047.4 申请日: 2015-09-02
公开(公告)号: CN105096941B 公开(公告)日: 2017-10-31
发明(设计)人: 杜念冬;邹赛赛;谢延 申请(专利权)人: 百度在线网络技术(北京)有限公司
主分类号: G10L15/07 分类号: G10L15/07
代理公司: 北京清亦华知识产权代理事务所(普通合伙)11201 代理人: 宋合成
地址: 100085 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 语音 识别 方法 以及 装置
【说明书】:

技术领域

发明涉及语音识别技术领域,尤其涉及一种语音识别方法以及装置。

背景技术

近年来,语音识别技术发展较为迅速,特别是深度神经网络被应用到语音识别之后,语音识别性能得到了大幅度提高。随着移动互联网的发展,语音输入方式越来越普遍,语音使用人群也越来越广泛。因此,如何提高语音识别的准确度已成为亟待解决的问题。

相关技术中,语音识别过程主要通过大量语音训练,以得到声学模型以及语言模型,然后通过该声学模型以及语言模型对说话人输入的语音数据进行语音识别。可以看出,训练样本越大,精确度越高,训练得到的声学模型效果越好,从而提高语音识别的准确度。

但是存在的问题是,上述语音识别的过程中,采用了大量的语音样本,训练构建出声学模型,该模型应用于所有说话人的语音识别过程,对于方言口音比较重或者讲话不清楚的说话人来说,通过上述语音识别方式可能并不能很好地识别出该说话人输入的内容,降低了该声学模型的识别准确度,用户体验变差。

发明内容

本发明的目的旨在至少在一定程度上解决上述的技术问题之一。

为此,本发明的第一个目的在于提出一种语音识别方法。该方法可以基于说话人自适应的语音识别过程能够针对每个说话人的特点,定制他们的声学模型,从而提高每个说话人的准确度,提升了用户体验。

本发明的第二个目的在于提出一种语音识别装置。

为了实现上述目的,本发明第一方面实施例的语音识别方法,包括:获取说话人输入的语音信息,并获取所述说话人的说话人信息;根据所述说话人信息判断是否存在与所述说话人对应的个人声学模型;如果存在,则获取所述个人声学模型,并根据所述说话人的个人声学模型对所述语音信息进行语音识别;如果不存在,则根据基础声学模型对所述语音信息进行语音识别,并根据所述语音信息生成所述说话人的语料信息并存储;以及根据所述基础声学模型和存储的语料信息生成所述说话人的个人声学模型。

本发明实施例的语音识别方法,可先获取说话人输入的语音信息,并获取说话人的说话人信息,之后,可根据说话人信息判断是否存在与说话人对应的个人声学模型,若存在,则获取个人声学模型,并根据说话人的个人声学模型对语音信息进行语音识别,若不存在,则根据基础声学模型对语音信息进行语音识别,并根据语音信息生成说话人的语料信息并存储,以及根据基础声学模型和存储的语料信息生成说话人的个人声学模型,即在说话人无关的声学模型(即上述的基础声学模型)基础上利用给定说话人的历史语音数据进行进一步训练,得到该说话人自身特点的个人声学模型,在语音识别过程使用该说话人的个人声学模型进行识别,从而可以提高每个人的语音识别准确度,这样相当于对所有语音识别的用户提供了私人订制的语音识别服务,从而提升了用户体验。

为了实现上述目的,本发明第二方面实施例的语音识别装置,包括:第一获取模块,用于获取说话人输入的语音信息,并获取所述说话人的说话人信息;判断模块,用于根据所述说话人信息判断是否存在与所述说话人对应的个人声学模型;语音识别模块,用于在所述判断模块判断存在所述个人声学模型时,获取所述个人声学模型,并根据所述说话人的个人声学模型对所述语音信息进行语音识别,以及在所述判断模块判断不存在所述个人声学模型时,根据基础声学模型对所述语音信息进行语音识别;第一生成模块,用于根据所述语音信息生成所述说话人的语料信息并存储;以及第二生成模块,用于根据所述基础声学模型和存储的语料信息生成所述说话人的个人声学模型。

本发明实施例的语音识别装置,可通过第一获取模块获取说话人输入的语音信息,并获取说话人的说话人信息,判断模块根据说话人信息判断是否存在与说话人对应的个人声学模型,若存在,语音识别模块则获取个人声学模型,并根据说话人的个人声学模型对语音信息进行语音识别,若不存在,语音识别模块则根据基础声学模型对语音信息进行语音识别,第一生成模块根据语音信息生成说话人的语料信息并存储,第二生成模块根据基础声学模型和存储的语料信息生成说话人的个人声学模型,即在说话人无关的声学模型(即上述的基础声学模型)基础上利用给定说话人的历史语音数据进行进一步训练,得到该说话人自身特点的个人声学模型,在语音识别过程使用该说话人的个人声学模型进行识别,从而可以提高每个人的语音识别准确度,这样相当于对所有语音识别的用户提供了私人订制的语音识别服务,从而提升了用户体验。

本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510558047.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top