[发明专利]语种识别方法、系统、电子设备及存储介质有效
申请号: | 202010456194.1 | 申请日: | 2020-05-26 |
公开(公告)号: | CN111640419B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 柳林;方磊;方四安 | 申请(专利权)人: | 合肥讯飞数码科技有限公司 |
主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/06;G06F18/25;G06F40/263 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 李文清 |
地址: | 230088 安徽省合肥市高新区*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语种 识别 方法 系统 电子设备 存储 介质 | ||
1.一种语种识别方法,其特征在于,包括:
获取待语种识别的语音文件对应的用于表征语种的后验特征,并基于所述语音文件对应的用于表征语种的后验特征以及预设高斯混合模型,确定所述语音文件对应的均值超矢量;
将所述均值超矢量输入至语种识别模型中,得到所述语种识别模型输出的识别结果;
其中,所述预设高斯混合模型是基于第一类语种高斯混合模型和第二类语种高斯混合模型融合得到;
所述语种识别模型基于带有语种标签的第一类语种语音文件样本的均值超矢量和带有语种标签的第二类语种语音文件样本的均值超矢量训练得到,所述第一类语种语音文件样本的均值超矢量基于所述第一类语种语音文件样本对应的用于表征语种的后验特征以及所述预设高斯混合模型确定,所述第二类语种语音文件样本的均值超矢量基于所述第二类语种语音文件样本对应的用于表征语种的后验特征以及所述预设高斯混合模型确定。
2.根据权利要求1所述的语种识别方法,其特征在于,所述预设高斯混合模型是基于第一类语种高斯混合模型和第二类语种高斯混合模型融合得到,具体包括:
基于预设的平衡系数,确定所述第一类语种高斯混合模型和所述第二类语种高斯混合模型分别对应的权重;
基于所述第一类语种高斯混合模型和所述第二类语种高斯混合模型分别对应的权重,对所述一类语种高斯混合模型和所述第二类语种高斯混合模型进行融合,得到所述预设高斯混合模型;
其中,所述平衡系数基于所述第一类语种语音文件样本和所述第二类语种语音文件样本中分别对应的样本数量确定。
3.根据权利要求2所述的语种识别方法,其特征在于,所述平衡系数基于所述第一类语种语音文件样本和所述第二类语种语音文件样本中分别对应的样本数量确定,具体包括:
基于所述第一类语种语音文件样本和所述第二类语种语音文件样本中分别对应的样本数量,确定第一类语种语音文件样本和所述第二类语种语音文件样本分别对应的样本数量占比;
基于所述第一类语种语音文件样本对应的样本数量占比的信息熵值,以及所述第二类语种语音文件样本对应的样本数量占比的信息熵值,确定所述平衡系数。
4.根据权利要求1所述的语种识别方法,其特征在于,所述语种识别模型的训练过程,具体包括:
对所述第一类语种语音文件样本的均值超矢量,进行聚类处理确定数个聚类中心;其中,所述聚类中心的个数基于所述第二类语种语音文件样本的数量确定;
将所述第一类语种语音文件样本的均值超矢量替换为各所述聚类中心对应的均值超矢量,并基于带有语种标签的各所述聚类中心对应的均值超矢量和带有语种标签的第二类语种语音文件样本的均值超矢量,对所述语种识别模型进行训练。
5.根据权利要求4所述的语种识别方法,其特征在于,所述聚类中心的个数与所述第二类语种语音文件样本的数量相同。
6.根据权利要求1至5任一所述的语种识别方法,其特征在于,所述语种识别模型包括多个语种识别子模型,且每个所述语种识别子模型分别对应一个语种;相应地,所述将所述均值超矢量输入至语种识别模型中,得到所述语种识别模型输出的识别结果,具体包括:
将所述均值超矢量分别输入至每一个所述语种识别子模型中,并分别获得每个所述语种识别子模型输出的识别结果;
根据每个所述语种识别子模型输出的识别结果,得到所述语种识别模型输出的识别结果。
7.根据权利要求6所述的语种识别方法,其特征在于,所述根据每个所述语种识别子模型输出的识别结果,得到所述语种识别模型输出的识别结果,具体包括:
将每个所述语种识别子模型输出的识别结果,分别与预设阈值进行比较,确定输出的识别结果大于所述预设阈值的语种识别子模型对应的语种为所述语音文件的语种。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥讯飞数码科技有限公司,未经合肥讯飞数码科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010456194.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:区域的疫情风险确定方法、装置、计算机设备和存储介质
- 下一篇:结算系统