[发明专利]语音检测方法和装置有效
申请号: | 201810883930.4 | 申请日: | 2018-08-06 |
公开(公告)号: | CN108847245B | 公开(公告)日: | 2020-06-23 |
发明(设计)人: | 邵志明;曹琼;宋琼;郝玉峰 | 申请(专利权)人: | 北京海天瑞声科技股份有限公司 |
主分类号: | G10L17/04 | 分类号: | G10L17/04;G10L17/02 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 张娜;臧建明 |
地址: | 100083 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 检测 方法 装置 | ||
本发明实施例提供一种语音检测方法和装置,该方法包括:采用预先获取的第一说话模型,获取对语音数据库中除第一测试语音的每一个测试语音的第一概率,第一说话模型用于检测测试语音为第一说话人所说的语音的概率,第一说话人为第一测试语音对应的说话人,再根据语音数据库中除第一测试语音的每一个测试语音的第一概率,确定与第一测试语音为同一个说话人所说的第二测试语音,第二测试语音为第一概率最高的测试语音。本实施例提供的方法检出了语音数据库中同一人的所有语音,提高了效率和准确度。
技术领域
本发明实施例涉及语音检测领域,尤其涉及一种语音检测方法和装置。
背景技术
随着语音识别技术的发展,语音数据库也逐渐建立起来,为了尽量覆盖到某一语言所有说话人的声学特性,需要录制大量的说话人的数据,通常一个数据库可能包含上千个说话的人,导致语音数据库中包括某些人重复语音的问题。
目前对于相同人的语音检测,采用人工抽检的方式,比如,1000个人的数据库,随机抽取100个人的数据,由人工逐个听辨,检查者100个人的数据中是否存在重复说话人。
然而,抽检只能在样本上得到重复说话人的比例,无法排除所有的重复说话人,并且抽取一定比例的数据进行人工听辨,耗时耗力、准确度不高。
发明内容
本发明实施例提供一种语音检测方法,以解决在抽检样本上进行人工听音,造成耗时耗力、准确度不高的问题。
第一方面,本发明实施例提供一种语音检测方法,包括:
采用预先获取的第一说话模型,获取对语音数据库中除第一测试语音的每一个测试语音的第一概率,所述第一说话模型用于检测测试语音为第一说话人所说的语音的概率,所述第一说话人为所述第一测试语音对应的说话人;
根据所述语音数据库中除第一测试语音的每一个测试语音的第一概率,确定与所述第一测试语音为同一个说话人所说的第二测试语音,所述第二测试语音为第一概率最高的测试语音。
可选的,所述采用预先获取的第一说话模型,获取对语音数据库中除第一测试语音的任一测试语音的打分之前,所述方法还包括:
根据第一说话人所述的多个语音,建立所述第一说话模型。
可选的,所述确定所述第一说话人和第二测试语音对应的第二说话人为同一个人之前,所述方法还包括:
将所述第一测试语音输入预先获取的第二说话模型,获取所述第一测试语音的第二概率,所述第二说话模型用于检测测试语音为第二说话人所说的语音的概率,所述第二说话人为所述第二测试语音对应的说话人。
可选的,所述根据所述语音数据库中除第一测试语音的每一个测试语音的第一概率,确定与所述第一测试语音为同一个说话人所说的第二测试语音,包括:
根据所述第一说话人模型检测所述第二测试语音的第一概率和所述第二说话模型检测所述第一测试语音的第二概率,获取所述第一说话人和所述第二说话人为同一说话人的第三概率;
若所述第三概率大于预设概率门限,则确定所述第一测试语音和所述第二测试语音为同一说话人所说。
可选的,所述第三概率为所述第一概率和所述第二概率的平均值。
可选的,所述语音数据库中包括所述第一说话人对应的多个测试语音和所述第二说话人对应的多个测试语音;则所述根据所述语音数据库中除第一测试语音的每一个测试语音的第一概率,确定与所述第一测试语音为同一个说话人所说的第二测试语音,所述第二测试语音为第一概率最高的测试语音,包括:
获取所述第二说话人对应的多个测试语音中,被检测出说话人与所述第一测试语音为同一人的测试语音的第四概率;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京海天瑞声科技股份有限公司,未经北京海天瑞声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810883930.4/2.html,转载请声明来源钻瓜专利网。