[发明专利]基于声纹识别和语音识别的防录音假冒的身份确认方法无效
申请号: | 201110074246.X | 申请日: | 2011-03-25 |
公开(公告)号: | CN102142254A | 公开(公告)日: | 2011-08-03 |
发明(设计)人: | 邓菁;苗月琴 | 申请(专利权)人: | 北京得意音通技术有限责任公司 |
主分类号: | G10L17/00 | 分类号: | G10L17/00;G10L15/00 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 廖元秋 |
地址: | 100084 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 声纹 识别 语音 录音 假冒 身份 确认 方法 | ||
技术领域
本发明属于计算机及信息服务技术领域,特别涉及通过人类的声纹信息对其声称的身份进行确认的方法。
背景技术
声纹识别技术
声纹是对语音中所蕴含的、能唯一表征和标识说话人身份的特征参数及基于这些特征参数所建立的声纹模型的总称,而声纹识别则是根据某段语音识别说话人身份的过程。声纹识别技术(VPR)属于生物识别技术的一种,是一项根据语音波形中所蕴涵的说话人信息,自动识别说话人身份的技术。声纹是人的生物个性特征,很难找到两个声纹完全一样的人。
声纹识别的应用包括声纹辨认和声纹确认,可以是文本无关的,也可以是文本相关的。其中文本无关的版本同时具有文本和语言的无关性,对语音长度的要求也非常低,通常声纹建模只需要几十秒有效语音(有效语音是指去掉一段语音中的静音及噪音之后的语音),而声纹识别只需几秒钟的有效语音即可。有很高的识别精度,也可以灵活地调整参数从而适应不同应用的需求。
随着技术的推进,声纹识别技术正广泛地应用到各个领域,声纹确认的应用领域有:证券交易、银行交易、公安取证、个人电脑声控锁、汽车声控锁、身份证、信用卡的认证等;声纹辨认的应用领域有:刑侦破案、罪犯跟踪、国防监听、个性化应用等等。
在现有技术中,声纹识别方法包括声纹建模和声纹识别两个部分。
其中,声纹建模的方法的流程,如图1(a)所示,包括以下步骤:
(11)从已知说话人的语音中提取特征;
(12)基于第(11)步提取出的特征,训练声纹模型,即建立该说话人的声纹模型;声纹建模时用到的方法可采用任何已有的方法(如传统的MAP自适应等);建立由多个声纹模型组成的声纹模型库;
声纹识别方法的流程如图1(b)所示,包括以下步骤:
(21)从待识别的人的语音中提取特征;
(22)从声纹模型库中读取一指定的声纹模型;
(23)将第(21)步中提取出的特征作为待识别的特征,与第(22)步读取的声纹模型进行匹配比较,得到该特征与该声纹模型的匹配得分Score;
(24)将匹配得分Score与阈值相比对,如果大于阈值,则声纹识别成功,认为待识别的人的语音与指定的声纹模型出自同一个人,结束;否则,声纹识别失败,结束。
步骤(24)中所述阈值是指,在大量的声纹识别测试的匹配得分Score中,得到的一个参考值,称为阈值。该值用于界定待识别的人与指定的声纹模型是否匹配,进而做出两者是否出自同一个人的判断。选取的阈值应保证使声纹识别总体性能达到最佳。阈值的选定过程举例如下:
假设声纹模型库中有10个声纹模型,出自10个不同人,分别命名为mod1,mod2,...,mod10。
待识别的人的语音有10段,出自10个不同人,分别命名为spk1,spk2,...,spk10。
其中,spk1与mod1出自同一人,spk2与mod2出自同一人,依次类推,spk1,spk2,...,spk10称为合法说话人。Spk1与mod1的匹配得分记为TScore1,Spk2与mod2的匹配得分记为TScore2,依次类推。
除此,有另外10段待识别的人的语音,出自10个不同人,分别命名为imp1,imp2,...,imp10。且这10段语音不属于声纹模型库中的10个声纹模型的对应说话人,imp1,imp2,...,imp10称为假冒说话人。imp1与mod1的匹配得分记为FScore1,imp2与mod2的匹配得分记为FScore2,依次类推。
假设{TScore1,TScore2,...,TScore10}={0.90,0.87,0.93,0.75,0.82,0.98,0.87,0.86,0.94,0.88};
{FScore1,FScore2,...,FScore10}={0.12,0.25,0.11,0.43,0.36,0.83,0.57,0.54,0.47,0.62};
可以看到,合法说话人与对应声纹模型的匹配得分TScore1~TScore10中的最低分为0.75(TScore4),假冒说话人与对应声纹模型的匹配得分FScore1~FScore10中的最高分为0.83(FScore6)。基于此得分情况,得到的阈值可为0.82(TScore5),在此阈值下,TScore4无法通过声纹识别(它本应该通过的),其余的TScoren均可成功通过声纹识别;FScore6可以通过声纹识别(它本不应该通过的),其他的FScoren均不会通过声纹识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京得意音通技术有限责任公司,未经北京得意音通技术有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110074246.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:放射性废弃液体处理方法
- 下一篇:发光二极管显示装置及其显示面板