[发明专利]在线语音活性检测系统改进方法和装置有效
申请号: | 202110592214.2 | 申请日: | 2021-05-28 |
公开(公告)号: | CN113160855B | 公开(公告)日: | 2022-10-21 |
发明(设计)人: | 俞凯;徐薛楠;丁翰林;吴梦玥 | 申请(专利权)人: | 思必驰科技股份有限公司 |
主分类号: | G10L25/87 | 分类号: | G10L25/87 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 黄谦;邓婷婷 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 在线 语音 活性 检测 系统 改进 方法 装置 | ||
1.一种在线语音活性检测系统改进方法,包括:
将真实世界可用的语音活性检测系统作为教师模型;
利用所述教师模型输出待测语音的帧级别的语音概率,其中,所述待测语音包括真实世界的语音数据;
将所述帧级别的语音概率作为训练标签训练学生模型,其中,所述学生模型的双向门控循环单元改为单向门控循环单元;
用所述学生模型给出的概率预测语音和非语音,
其中,所述教师模型为五层CRNN模型,所述学生模型为三层CRNN模型,相比于所述教师模型,所述学生模型中删除了五层中的最后两层。
2.根据权利要求1所述的方法,其中,在将真实世界可用的语音活性检测系统作为教师模型之前,所述方法还包括:
通过弱监督的方式训练得到一个所述真实世界可用的语音活性检测系统作为教师模型。
3.根据权利要求2所述的方法,还包括:
在段级别的监督下对所述教师模型进行训练。
4.根据权利要求1所述的方法,其中,所述待测语音为合成的加噪语音数据。
5.根据权利要求4所述的方法,其中,所述利用所述教师模型输出待测语音的帧级别的语音概率包括:
对于给定的待测语音数据的输入音频段,估计每个声音时间e的帧概率ytT(e);
将所述帧概率用作软标签,以向所述学生模型提供帧级别的监督。
6.根据权利要求5所述的方法,其中,将学生模型训练成二进制分类器,以区分语音和非语音,所述将所述帧级别的语音概率作为训练标签训练学生模型包括:
将由所述教师模型预测的声音事件的帧概率转换为二进制标签以进行学生模型的训练。
7.根据权利要求6所述的方法,其中,语音标签集为S,教师模型为T,学生模型为s,计算公式如下:
S(Speech)={Speech,Conversation,…}
其中,为学生模型的训练标签。
8.一种在线语音活性检测系统改进装置,包括:
教师模型程序模块,配置为将真实世界可用的语音活性检测系统作为教师模型;
输出程序模块,配置为利用所述教师模型输出待测语音的帧级别的语音概率,其中,所述待测语音包括真实世界的语音数据;
训练程序模块,配置为将所述帧级别的语音概率作为训练标签训练学生模型,其中,所述学生模型的双向门控循环单元改为单向门控循环单元;
预测程序模块,配置为用所述学生模型给出的概率预测语音和非语音,
其中,所述教师模型为五层CRNN模型,所述学生模型为三层CRNN模型,相比于所述教师模型,所述学生模型中删除了五层中的最后两层。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至7任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110592214.2/1.html,转载请声明来源钻瓜专利网。