[发明专利]一种数字串语音处理方法及装置有效
申请号: | 201811609029.4 | 申请日: | 2018-12-27 |
公开(公告)号: | CN109448732B | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 闫杰;李晋;方昕 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G10L17/04 | 分类号: | G10L17/04;G10L17/08;G10L17/18 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王云晓;王宝筠 |
地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 种数 字串 语音 处理 方法 装置 | ||
本申请提供了一种数字串语音处理方法及装置,其中,方法包括:获取目标数字串语音;基于整个目标数字串语音和预先建立的身份向量确定模型,确定目标数字串语音中各个数字对应的目标数字身份向量,所有目标数字身份向量组成目标数字串语音对应的数字声纹模型,其中,身份向量确定模型采用数字串语音训练得到,数字声纹模型中包含训练数字串语音中数字串的结构化信息。本申请提供的数字串语音处理方法能够确定出稳定、精准的数字声纹模型。
技术领域
本申请涉及声纹识别技术领域,尤其涉及一种数字串语音处理方法及装置。
背景技术
声纹识别技术又称说话人识别技术,其是利用人的声音来检测说话人的身份的技术。与其它生物识别技术相比,声纹识别技术利用语音信号进行身份确认,具有成本低廉、采集简便、易于存储、难于模仿、交互友好等特点,同时也可以通过电话或网络等方式进行远程操作。因此,声纹识别技术在安防、军事、经济、生活等很多领域都具有良好而广阔的应用前景。
根据对语音数据的要求,声纹识别可以分为与文本相关和与文本无关两类。前者要求注册语音和测试语音具有相同的语义文本,需要用户的积极配合,后者则没有此要求,限制因素较少,应用更灵活。文本提示型说话人识别是文本相关声纹识别的一种变形,文本提示型说话人识别的测试语音文本是从一个固定集合中随机组合产生。数字声纹识别是文本提示型说话人识别的一种具体形式,数字声纹识别的测试语音文本是固定位数的随机数字串,随机数字串的使用既约束了文本的变化空间,又可以在使用过程中有效地防止录音回放攻击。
数字声纹识别的过程为:获取待验证数字串语音对应的数字声纹模型,将待验证数字串语音对应的数字声纹模型与注册数字串语音对应的数字声纹模型进行匹配,基于匹配结果确定测试数字串语音与注册数字串语音对应的用户身份是否一致。数字声纹模型获取是数字声纹识别的关键,现有技术中,数字声纹模型的获取是基于全变量因子分析的方法实现的,但基于全变量因子分析的方法获得的数字声纹模型不够稳定和准确,进而导致声纹识别效果不佳。
发明内容
有鉴于此,本申请提供了一种数字串语音处理方法及装置,用以从数字串语音中获取精准、稳定的数字声纹模型,进而提高声纹识别效果,其技术方案如下:
一种数字串语音处理方法,包括:
获取目标数字串语音;
基于整个所述目标数字串语音和预先建立的身份向量确定模型,确定所述目标数字串语音中各个数字对应的目标数字身份向量,所有目标数字身份向量组成所述目标数字串语音对应的数字声纹模型;
其中,所述身份向量确定模型采用数字串语音训练得到,所述数字声纹模型中包含所述数字串语音中数字串的结构化信息。
其中,所述身份向量确定模型的训练过程,包括:
获取所述数字串语音中各个数字的起始位置信息和结束位置信息;
获取整个所述数字串语音对应的频域特征;
利用整个所述数字串语音对应的频域特征,以及所述数字串语音中各个数字的起始位置信息和结束位置信息,训练并构建身份向量确定模型。
可选的,所述将整个所述数字串语音对应的频域特征,以及所述数字串语音中各个数字的起始位置信息和结束位置信息,输入身份向量确定模型进行训练,包括:
通过所述身份向量确定模型将整个所述数字串语音对应的频域特征映射为频域上的多个第一特征;
通过所述身份向量确定模型将所述频域上的多个第一特征转换为时域上的多个第二特征,其中,任一所述第二特征的长度与所述数字串语音的帧数相同,任一所述第一特征的长度小于任一所述第二特征的长度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811609029.4/2.html,转载请声明来源钻瓜专利网。