[发明专利]一种基于时域的第三者插话语音过滤方法在审
申请号: | 202310286203.0 | 申请日: | 2023-03-21 |
公开(公告)号: | CN116312598A | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 肖红;黄冠儒;黄子豪;马宗鑫;姜文超 | 申请(专利权)人: | 广东工业大学;广州凡沙智能科技有限公司 |
主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L21/0272;G10L17/02;G10L25/30;G10L15/16 |
代理公司: | 佛山市君创知识产权代理事务所(普通合伙) 44675 | 代理人: | 罗伟富 |
地址: | 510000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 时域 第三者 插话 语音 过滤 方法 | ||
1.一种基于时域的第三者插话语音过滤方法,其特征在于,包括:
用户将语音录入第三者插话语音过滤系统;
第三者插话语音过滤系统提取用户声音的声纹特征向量并储存在第三者插话语音过滤系统数据库中;
第三者插话语音过滤系统接收用户语音和不属于用户的语音结合的混合语音;
第三者插话语音过滤系统根据用户声纹特征过滤混合语音中不属于用户的语音得到纯净的用户语音。
2.根据权利要求1所述的一种基于时域的第三者插话语音过滤方法,其特征在于,所述第三者插话语音过滤系统提取用户声音的声纹特征向量并储存在第三者插话语音过滤系统数据库中包括:
第三者插话语音过滤系统将用户录入的语音的原始时域信号转化为高维语音信号;
第三者插话语音过滤系统将高维语音信号进行特征提取,获得用户声纹特征向量;
第三者插话语音过滤系统将用户声纹特征向量储存在第三者插话语音过滤系统数据库中。
3.根据权利要求2所述的一种基于时域的第三者插话语音过滤方法,其特征在于,所述第三者插话语音过滤系统将用户录入的语音的原始时域信号转化为高维语音信号包括:
采用一个一维卷积网络,缩减模型尺寸,卷积步长设定为卷积核大小的一半,设用户语音原始时域信号x经过编码器输出的特征为Fencoder;
Fencoder=ConvK12C256(x),其中ConvK12C256(*)表示卷积核大小为12,通道数为256的一维卷积网络;
混合语音xmix和用户语音xaux经过编码器得到高维语音信号表示Fmix和Faux。
4.根据权利要求2所述的一种基于时域的第三者插话语音过滤方法,其特征在于,所述第三者插话语音过滤系统将高维语音信号进行特征提取,获得用户声纹特征向量包括:
声纹特征提取模型包括:3个时延神经网络TDNN、1个一维卷积网络1D CNN和两个全连接层Linear;
TDNN是由一个空洞卷积网络和激活函数构成,Faux经过三个串联的TDNN和一个一维卷积提取浅层特征,定义为
FSh allow=ConvK1C1500(TDNNK3D3C512(TDNNK302C512(TDNNK5D1C512(Faux))))
其中,TDNNKxDyCz(·)表示模块中空洞卷积的卷积核K的大小为x,空洞D的大小为y,通道数C为z;
计算具有时序联系的浅层特征FSh allow的统计特征,即对时序维度分别求均值和标准差,再将通道数为C的均值和标准差进行特征拼接,组成2×C维的融合特征,表示为
Ffuse=Cat[Mean(FSh allow),Std(FSh allow)]
其中,Cat[·]表示对FSh allow的统计特征拼接,Mean(·)表示求均值函数,Std(·)表示求标准差函数;
通过一个全连接层整合融合特征Ffuse生成声纹特征Fvoiceprint,表示为
Fvoiceprint=Linear256(Ffuse)
其中,Linearx表示输出维度为x的全连接层;
将用户声纹特征映射成与类别数num一致的维度,表示样本属于各个类别的概率,表示为
Class=Linearnum(Fvoiceprint)
声纹分类网络通过交叉熵损失函数计算推理结果偏差,然后反向传播优化模型参数,交叉熵损失表示为
其中,N表示样本数量,num表示类别数量,yic表示一个符号函数,当样本i真实类别为c时取1,否则取0;pic表示样本i输于类别c的概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学;广州凡沙智能科技有限公司,未经广东工业大学;广州凡沙智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310286203.0/1.html,转载请声明来源钻瓜专利网。