[发明专利]语音识别方法、装置及电子设备在审
申请号: | 201910477492.6 | 申请日: | 2019-06-03 |
公开(公告)号: | CN110211588A | 公开(公告)日: | 2019-09-06 |
发明(设计)人: | 李杰;王晓瑞;李岩 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/02 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 祝亚男 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本数据 音节数据 语音特征 声学模型 语音识别 语音数据 装置及电子设备 发音词典 语言模型 转化 传输函数 特征抽取 特征提取 音频处理 输出 评估 | ||
1.一种语音识别方法,其特征在于,所述方法包括:
对语音数据进行特征提取,得到所述语音数据的语音特征;
将所述语音特征输入声学模型,通过所述声学模型包括的多个特征抽取层和柔性最大值传输函数softmax层,确定所述语音特征对应的音节数据,其中,所述声学模型用于将语音特征转化为音节数据;
根据语言模型、发音词典以及所述音节数据,确定所述语音数据对应的文本数据,输出所述文本数据,其中,所述发音词典用于将音节数据转化为对应的文本数据,所述语言模型用于对转化得到的文本数据进行评估。
2.根据权利要求1所述的语音识别方法,其特征在于,所述通过所述声学模型包括的多个特征抽取层和柔性最大值传输函数softmax层,确定所述语音特征对应的音节数据,包括:
通过所述声学模型的多个特征抽取层对所述语音特征进行抽取,得到中间语音特征;
通过柔性最大值传输函数softmax确定所述中间语音特征对应于每个音节数据的概率,将最大概率对应的音节数据确定为所述语音特征对应的音节数据。
3.根据权利要求1所述的语音识别方法,其特征在于,所述将所述语音特征输入声学模型之前,还包括:
获取至少一个样本数据,每个样本数据包括样本语音特征、所述样本语音特征对应的真值音节数据;
将每个样本语音特征输入初始声学模型中,根据所述初始声学模型输出的预测音节数据与对应的真值音节数据,对初始声学模型进行训练,得到所述声学模型。
4.根据权利要求3所述的语音识别方法,其特征在于,所述获取至少一个样本数据,包括:
获取第一语种的第一语音特征与第一文本数据的对应关系、第二语种的第二语音特征与第二文本数据的对应关系、以及第一文本子数据与第二文本数据的对应关系,其中,所述第一文本子数据为第一文本数据的部分数据;
在每个第一文本数据中,随机选取多个第一文本子数据,根据所述第一文本子数据与第二文本数据的对应关系,确定每个第一文本子数据对应的第二文本数据;
对于每个第一文本数据,采用第二文本数据替换对应的第一文本子数据,将得到的混合文本数据确定为样本文本数据;
对于每个第一文本数据对应的第一语音特征,采用第二文本数据对应的第二语音特征替换对应的第一文本子数据对应的第一语音子特征,将得到的混合语音特征确定为样本语音特征;
确定每个样本文本数据对应的真值音节数据,将每个样本文本数据对应的真值音节数据和样本文本数据对应的样本语音特征组成一个样本数据。
5.根据权利要求1所述的语音识别方法,其特征在于,所述根据语言模型、发音词典以及所述音节数据,确定所述语音数据对应的文本数据,包括:
根据发音词典中的音节数据与文本数据的对应关系,确定所述音节数据对应的预设文本数据;
根据语言模型确定每个预设文本数据的可能性概率,将可能性概率最大的预设文本数据确定为所述音节数据对应的文本数据。
6.根据权利要求1所述的语音识别方法,其特征在于,所述根据语言模型、发音词典以及所述音节数据,确定所述语音数据对应的文本数据之前,还包括:
获取样本文本语料,所述样本文本语料包括第一语种的文本语料与第二语种的文本语料;
根据预设分词算法对所述样本文本语料进行分词处理,得到多个样本词语;
确定每个样本词语在所述样本文本语料中的出现概率,将每个样本词语与对应的出现概率存储到初始语言模型中,得到所述语言模型。
7.根据权利要求6所述的语音识别方法,其特征在于,所述获取样本文本语料,包括:
获取第一语种的第一文本语料、第二语种的第二文本语料、以及第一文本语料与第二文本语料的对应关系;
在每个第一文本语料中选取至少一个第一文本子语料,确定第一文本子语料与第二文本语料的对应关系;
根据所述第一文本子语料与第二文本语料的对应关系,采用第一文本子语料对应的第二文本语料替换第一文本子语料,将得到的混合第一文本语料确定文样本文本语料。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910477492.6/1.html,转载请声明来源钻瓜专利网。