[发明专利]一种消除语音回声的方法、装置及计算机可读介质有效
申请号: | 202110536987.9 | 申请日: | 2021-05-18 |
公开(公告)号: | CN112967731B | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 曹亚曦;许磊 | 申请(专利权)人: | 浙江华创视讯科技有限公司 |
主分类号: | G10L21/0308 | 分类号: | G10L21/0308 |
代理公司: | 北京乐知新创知识产权代理事务所(普通合伙) 11734 | 代理人: | 江宇 |
地址: | 310051 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 消除 语音 回声 方法 装置 计算机 可读 介质 | ||
1.一种消除语音回声的方法,其特征在于,包括:
获取待测语音信号序列,所述待测语音信号序列包括多个连续的语音信号,所述语音信号中携带语音信号生成的时间点;
利用语音回声分类模型对所述待测语音信号序列进行预测,得到回声起始时间点和回声结束时间点;所述语音回声分类模型通过如下方法获得:获取正常语音信号序列和具有回声标签的语音信号序列,将所述正常语音信号序列作为正例训练样本,将具有回声标签的语音信号序列作为负例训练样本;其中,所述具有回声标签的语音信号序列标记有回声起始时间点标签和回声结束时间点标签;利用多个所述正例训练样本和多个所述负例训练样本进行模型训练,生成语音回声分类模型;
基于所述回声起始时间点和所述回声结束时间点,从所述待测语音信号序列中移除从所述回声起始时间点到所述回声结束时间点的多个语音信号,生成无回声的语音信号序列。
2.根据权利要求1所述的方法,其特征在于,所述回声结束时间点包括多个回声结束的中间时间点以及一个回声结束的终止时间点,其中,任一所述回声结束的中间时间点小于所述回声结束的终止时间点;从所述待测语音信号序列中移除从所述回声起始时间点到所述回声结束时间点的多个语音信号,包括:
从所述待测语音信号序列中移除从所述回声起始时间点到所述回声结束的终止时间点的多个语音信号。
3.根据权利要求1所述的方法,其特征在于,利用多个所述正例训练样本和多个所述负例训练样本进行模型训练,生成语音回声分类模型,包括:
针对多个所述正例训练样本以及多个所述负例训练样本中的任一训练样本:按照特定时间窗口依次将所述训练样本中多个语音信号划分成不同的窗口序列,生成多个窗口序列;
针对任一当前窗口序列:根据所述当前窗口序列获取前N个窗口序列的隐藏层信息;对所述当前窗口序列进行编码,生成当前窗口的语音嵌入向量;利用所述语音嵌入向量和所述隐藏层信息进行模型训练;
基于多个所述正例训练样本以及多个所述负例训练样本的模型训练结果,生成语音回声分类模型。
4.根据权利要求3所述的方法,其特征在于,对所述当前窗口序列进行编码,生成当前窗口的语音嵌入向量,包括:
获取语音音表,所述语音音表用于指示音频宽带与音素之间的映射关系;
根据所述语音音表,确定所述当前窗口序列中所有语音信号对应的音素,并对所有音素进行编码,进而学习,生成当前窗口的语音嵌入向量。
5.根据权利要求4所述的方法,其特征在于,所述语音音表通过如下方法获得:
获取人类语音的音频宽带范围;
对所述音频宽带范围内任一音频宽带构建音素,生成音频宽带范围对应的语音音表。
6.根据权利要求1所述的方法,其特征在于,所述获取具有回声标签的语音信号序列,包括:
获取连续的原始语音信号序列,所述原始语音信号序列包括多个原始语音信号,所述原始语音信号中携带原始语音信号生成的时间点;
基于所述原始语音信号序列,确定所述原始语音信号序列中回声起始时间点和回声结束时间点;
对所述原始语音信号序列中所述回声起始时间点和所述回声结束时间点对应的原始语音信号打标签,得到具有回声标签的语音信号序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江华创视讯科技有限公司,未经浙江华创视讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110536987.9/1.html,转载请声明来源钻瓜专利网。