[发明专利]语音区分方法、装置、计算机设备及存储介质有效
申请号: | 201810561788.1 | 申请日: | 2018-06-04 |
公开(公告)号: | CN108922513B | 公开(公告)日: | 2023-03-17 |
发明(设计)人: | 涂宏 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/16;G10L25/18;G10L25/21;G10L25/24;G10L25/78;G10L25/84 |
代理公司: | 深圳众鼎专利商标代理事务所(普通合伙) 44325 | 代理人: | 胡志桐 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 区分 方法 装置 计算机 设备 存储 介质 | ||
1.一种语音区分方法,其特征在于,包括:
基于语音活动检测算法处理原始待区分语音数据,获取目标待区分语音数据;
基于所述目标待区分语音数据,获取相对应的ASR语音特征;
将所述ASR语音特征输入到预先训练好的ASR-RNN模型中进行区分,获取目标区分结果;
其中,获取所述ASR-RNN模型的步骤包括:
获取待训练语音数据,并提取所述待训练语音数据的待训练ASR语音特征;
初始化RNN模型;
将待训练ASR语音特征输入到RNN模型中,根据前向传播算法获取RNN模型的输出值,所述输出值表示为:σ表示激活函数,V表示隐藏层和输出层之间连接的权值,ht表示t时刻的隐藏状态,c表示隐藏层和输出层之间的偏置;
基于所述输出值进行误差反传,更新RNN模型各层的权值和偏置,获取ASR-RNN模型,其中,更新权值V的公式为:V表示更新前隐藏层和输出层之间连接的权值,V'表示更新后隐藏层和输出层之间连接的权值,α表示学习率,t表示t时刻,τ表示总时长,表示预测输出值,yt表示真实输出值,ht表示t时刻的隐藏状态,T表示矩阵转置运算;更新偏置c的公式为:c表示更新前隐藏层和输出层之间的偏置,c'表示更新后隐藏层和输出层之间的偏置;更新权值U的公式为:U表示更新前输入层到隐藏层之间连接的权值,U'表示更新后输入层到隐藏层之间连接的权值,diag()表示构造一个对角矩阵或者以向量的形式返回一个矩阵上对角线元素的矩阵运算,δt表示隐藏层状态的梯度,xt表示t时刻输入的待训练ASR语音特征;更新权值W的公式为:W表示更新前隐藏层之间连接的权值,W'表示更新后隐藏层之间连接的权值;更新偏置b的公式为:b表示更新前输入层和隐藏层之间的偏置,b'表示更新后输入层和隐藏层之间的偏置。
2.根据权利要求1所述的语音区分方法,其特征在于,所述基于语音活动检测算法处理原始待区分语音数据,获取目标待区分语音数据,包括:
根据短时能量特征值计算公式对所述原始待区分语音数据进行处理,获取对应的短时能量特征值,将所述短时能量特征值大于第一阈值的所述原始待区分语音数据保留,确定为第一原始区分语音数据,短时能量特征值计算公式为其中,N为语音帧长,s(n)为时域上的信号幅度,n为时间;
根据过零率特征值计算公式对所述原始待区分语音数据进行处理,获取对应的过零率特征值,将所述过零率特征值小于第二阈值的所述原始待区分语音数据保留,确定为第二原始区分语音数据,过零率特征值计算公式为其中,N为语音帧长,s(n)为时域上的信号幅度,n为时间;
将所述第一原始区分语音数据和所述第二原始区分语音数据作为所述目标待区分语音数据。
3.根据权利要求1所述的语音区分方法,其特征在于,所述基于所述目标待区分语音数据,获取相对应的ASR语音特征,包括:
对所述目标待区分语音数据进行预处理,获取预处理语音数据;
对所述预处理语音数据作快速傅里叶变换,获取目标待区分语音数据的频谱,并根据所述频谱获取目标待区分语音数据的功率谱;
采用梅尔刻度滤波器组处理所述目标待区分语音数据的功率谱,获取目标待区分语音数据的梅尔功率谱;
在所述梅尔功率谱上进行倒谱分析,获取目标待区分语音数据的梅尔频率倒谱系数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810561788.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种个性化机器人电话客服系统
- 下一篇:一种基于低频对数谱的鲁棒特征提取方法