[发明专利]语音识别方法及装置、存储介质、电子设备有效
申请号: | 201710612586.0 | 申请日: | 2017-07-25 |
公开(公告)号: | CN107578771B | 公开(公告)日: | 2021-02-02 |
发明(设计)人: | 沈法琳;潘嘉;刘聪 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/14;G10L15/16;G10L25/24 |
代理公司: | 北京维澳专利代理有限公司 11252 | 代理人: | 王立民 |
地址: | 230000 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 装置 存储 介质 电子设备 | ||
1.一种语音识别方法,其特征在于,所述方法包括:
分别利用通用识别模型、个性化识别模型对待识别语音数据进行语音识别,得到各识别模型对应的候选筛选结果;
获得待识别语音数据与历史语音数据在声学层面的第一匹配度,和/或所述待识别语音数据与所述历史语音数据在文本层面的第二匹配度;
结合所述第一匹配度和/或所述第二匹配度,利用预先构建的候选筛选模型,从所述候选筛选结果中确定出所述待识别语音数据对应的语音识别结果。
2.根据权利要求1所述的方法,其特征在于,所述历史语音数据包括通用历史语音数据和个性化历史语音数据,且基于从所述通用历史语音数据中提取的发音特征预先构建第一高斯混合模型,基于从所述个性化历史语音数据中提取的发音特征预先构建第二高斯混合模型,则
所述获得待识别语音数据与历史语音数据在声学层面的第一匹配度,包括:
结合从所述待识别语音数据中提取的发音特征,利用所述第一高斯混合模型获得所述待识别语音数据与所述通用历史语音数据在声学层面的第一子匹配度,并利用所述第二高斯混合模型获得所述待识别语音数据与所述个性化历史语音数据在声学层面的第二子匹配度;
所述第一子匹配度与所述第二子匹配度的集合作为所述第一匹配度。
3.根据权利要求1所述的方法,其特征在于,所述历史语音数据包括通用历史语音数据和个性化历史语音数据,且基于从所述通用历史语音数据中提取的发音特征计算得到第一发音特征均值,基于从所述个性化历史语音数据中提取的发音特征计算得到第二发音特征均值,则
所述获得待识别语音数据与历史语音数据在声学层面的第一匹配度,包括:
提取所述待识别语音数据的发音特征,计算所述待识别语音数据的发音特征与所述第一发音特征均值之间的第三子匹配度,以及所述待识别语音数据的发音特征与所述第二发音特征均值之间的第四子匹配度;
所述第三子匹配度与所述第四子匹配度的集合作为所述第一匹配度。
4.根据权利要求1所述的方法,其特征在于,所述历史语音数据包括通用历史语音数据和个性化历史语音数据,且基于在通用语言模型上计算出的所述通用历史语音数据的混淆度PPL值,预先构建第三高斯模型;基于在个性化语言模型上计算出的所述个性化历史语音数据的PPL值,预先构建第四高斯模型,则
所述获得待识别语音数据与历史语音数据在文本层面的第二匹配度,包括:
在所述通用语言模型上计算所述待识别语音数据的第一PPL值,并利用所述第三高斯模型得到所述第一PPL值对应的第五子匹配度;
在所述个性化语言模型上计算所述待识别语音数据的第二PPL值,并利用所述第四高斯模型得到所述第二PPL值对应的第六子匹配度;
所述第五子匹配度与所述第六子匹配度的集合作为所述第二匹配度。
5.根据权利要求1所述的方法,其特征在于,所述历史语音数据包括通用历史语音数据和个性化历史语音数据,且基于在通用语言模型上计算出的所述通用历史语音数据的混淆度PPL值,获得第一PPL均值,基于在个性化语言模型上计算出的所述个性化历史语音数据的PPL值,获得第二PPL均值,则
所述获得待识别语音数据与历史语音数据在文本层面的第二匹配度,包括:
在所述通用语言模型上计算所述待识别语音数据的第一PPL值,并计算所述第一PPL值与所述第一PPL均值之间的第七子匹配度;
在所述个性化语言模型上计算所述待识别语音数据的第二PPL值,并计算所述第二PPL值与所述第二PPL均值之间的第八子匹配度;
所述第七子匹配度与所述第八子匹配度的集合作为所述第二匹配度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710612586.0/1.html,转载请声明来源钻瓜专利网。