[发明专利]语种识别方法、装置、服务器及存储介质在审

申请号：	202011033457.4	申请日：	2020-09-27
公开（公告）号：	CN112185347A	公开（公告）日：	2021-01-05
发明（设计）人：	张大威;姜涛;王晓瑞;王俊;李岩	申请（专利权）人：	北京达佳互联信息技术有限公司
主分类号：	G10L15/00	分类号：	G10L15/00;G10L15/02;G10L15/06;G10L15/16;G10L15/30;G10L25/21;G10L25/51;H04L29/08
代理公司：	广州华进联合专利商标代理有限公司 44224	代理人：	冯右明
地址：	100085 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语种识别方法装置服务器存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种语种识别方法，其特征在于，包括：

获取待检测音频信号中的声学特征；

将所述声学特征输入预先训练的声纹特征提取网络模型中，得到所述预先训练的声纹特征提取网络模型中目标神经网络层输出的特征，作为所述待检测音频信号中的声纹特征；所述预先训练的声纹特征提取网络模型是根据音频样本数据集合，基于预设的神经网络训练得到的，所述音频样本数据集合包括不同语种的样本音频信号的声学特征；

根据所述待检测音频信号中的声纹特征以及各个预设语种音频信号中的声纹特征，确定所述待检测音频信号与各个所述预设语种音频信号之间的对数似然比值；所述对数似然比值用于表征所述待检测音频信号与预设语种音频信号之间的相似程度；

根据各个所述对数似然比值，确定所述待检测音频信号与各个所述预设语种音频信号之间的特征相似度；

根据所述特征相似度，从各个所述预设语种音频信号对应的语种信息中，确定所述待检测音频信号的语种信息。

2.根据权利要求1所述的语种识别方法，其特征在于，所述预先训练的声纹特征提取网络模型通过下述方式训练得到：

滤除各个所述样本音频信号中的声学特征中的静音特征，得到各个所述样本音频信号中的目标声学特征；

分别将各个所述样本音频信号中的目标声学特征输入所述预设的神经网络，得到所述预设的神经网络中所述目标神经网络层输出的各个所述样本音频信号中的预测声纹特征；

根据各个所述样本音频信号中的预测声纹特征和对应的实际声纹特征之间的差值，得到所述预设的神经网络的损失值；

根据所述损失值调整所述预设的神经网络的网络参数，直到所述损失值小于第一预设阈值时，则将网络参数调整后的预设的神经网络，作为所述预先训练的声纹特征提取网络模型。

3.根据权利要求1所述的语种识别方法，其特征在于，所述根据所述待检测音频信号中的声纹特征以及各个预设语种音频信号中的声纹特征，确定所述待检测音频信号与各个所述预设语种音频信号之间的对数似然比值，包括：

分别将所述待检测音频信号中的声纹特征以及预设语种音频信号中的声纹特征进行预处理，得到所述待检测音频信号中的目标声纹特征和所述预设语种音频信号中的目标声纹特征；所述预处理包括数据降维处理和数据归一化处理；

将所述待检测音频信号中的目标声纹特征和所述预设语种音频信号中的目标声纹特征输入预先训练的语种识别模型，通过所述预先训练的语种识别模型对所述待检测音频信号中的目标声纹特征和所述预设语种音频信号中的目标声纹特征进行概率线性判别分析处理，得到所述待检测音频信号与各个所述预设语种音频信号之间的对数似然比值。

4.根据权利要求3所述的语种识别方法，其特征在于，所述预先训练的语种识别模型通过下述方式训练得到：

将各个所述样本音频信号中的声学特征输入所述预先训练的声纹特征提取网络模型中，分别得到所述预先训练的声纹特征提取网络模型中所述目标神经网络层输出的特征，对应作为各个所述样本音频信号中的声纹特征；

根据各个所述样本音频信号中的声纹特征，对待训练的语种识别模型进行训练，直到训练后的语种识别模型的损失值小于第二预设阈值时，则将所述训练后的语种识别模型，作为所述预先训练的语种识别模型。

5.根据权利要求1所述的语种识别方法，其特征在于，所述根据所述特征相似度，从各个所述预设语种音频信号对应的语种信息中，确定所述待检测音频信号的语种信息，包括：

从所述待检测音频信号与各个所述预设语种音频信号之间的特征相似度中，筛选出最大的特征相似度；

若所述最大的特征相似度大于对应的阈值，则将所述最大的特征相似度对应的预设语种音频信号的语种信息，作为所述待检测音频信号的语种信息。

6.一种视频推送方法，其特征在于，包括：

获取待推送视频中的待检测音频信号中的声学特征；

根据所述待检测音频信号中的声学特征，确定所述待检测音频信号的语种信息，作为所述待推送视频的语种信息；所述待检测音频信号的语种信息根据权利要求1至5任一项所述的语种识别方法得到；

根据所述语种信息，将所述待推送视频推送至对应的账户。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司，未经北京达佳互联信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011033457.4/1.html，转载请声明来源钻瓜专利网。

上一篇：无人机雨伞
下一篇：一种汽车空调通气管内部加强筋打磨装置

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语种识别方法、装置、服务器及存储介质在审

专利文献下载