[发明专利]一种基于核心帧筛选的模型得分优化方法有效
申请号: | 202110514259.8 | 申请日: | 2021-04-30 |
公开(公告)号: | CN113257236B | 公开(公告)日: | 2022-03-29 |
发明(设计)人: | 杨莹春;魏含玉;吴朝晖 | 申请(专利权)人: | 浙江大学 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/14 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 王琛 |
地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 核心 筛选 模型 得分 优化 方法 | ||
本发明公开了一种基于核心帧筛选的模型得分优化方法,具体步骤为:S1.使用训练数据进行训练获取模型参数;S2.计算各帧语音在语音中的重要度权重;S3.按照重要度权重排序选取各个语音的核心帧;S4.使用核心帧数据训练获取模型参数;S5.通过计算重要度权重选取测试语音的核心帧;S6.对测试语音的核心帧进行打分得到语音的得分进行决策。通过本发明得分优化方法可以选取语音中高质量的核心帧作为打分依据,以提升检测性能,该方法适用于语音识别、说话人识别、伪造语音识别等语音分类场景。
技术领域
本发明属于语音识别技术领域,具体涉及一种基于核心帧筛选的模型得分优化方法。
背景技术
声纹认证系统作为一种生物认证的方式,具有采集成本低、易于获取、方便远程认证等等优势,已经广泛应用于门禁系统、金融交易和司法鉴定等等领域。随着语音合成技术飞速发展,一方面给人们带来了更方便的服务和更良好的用户体验,如真声智能客服、真声智能导航、有声读物、智能语音呼叫等等;另一方面也给声纹认证系统的安全性带来了巨大的挑战,如利用合成语音攻击声纹认证系统使其性能显著下降,因此关于合成语音检测的研究具有重要的意义。
合成语音检测的目的就是从真实语音中将合成语音检测出来。主流的GMM检测系统中,当进行到测试阶段,首先提取测试语音的语音特征序列,然后通过训练好的GMM模型,计算出各帧得分,然后对各帧的得分求取均值作为该测试语音的得分,进行决策判断;而实际上当通过人耳听辨语音真假的时候,并不会平均关注到每一帧的信息,我们会更多的关注到一些特别的帧,比如停顿连贯性、多音字读音准确性以及断句方式自然性等等,因此GMM均值打分法在合成语音检测中是具有不合理性的,进行得分方法优化成为一个值得关注的课题。
发明内容
为了解决得分优化的问题,本发明提出了一种基于核心帧筛选的模型得分优化方法,使用该方法可以选取语音中高质量的核心帧作为打分依据,以提升检测性能。
一种基于核心帧筛选的模型得分优化方法,包括如下步骤:
S1.利用训练语音训练原始模型;
S2.利用原始模型计算训练语音中各帧的重要度权重;
S3.按照重要度权重排序选取每条训练语音的核心帧;
S4.利用训练语音的核心帧训练核心模型;
S5.利用原始模型计算测试语音中各帧的重要度权重;
S6.按照重要度权重排序选取每条测试语音的核心帧;
S7.将测试语音的核心帧输入核心模型中计算匹配得分,该得分即为优化后的模型得分。
进一步地,所述步骤S1的具体实现方式为:对于N类语音识别任务,将所有训练语音按照所属类别划分为N个集合,依次对各个集合中的训练语音提取特征后分别进行训练以获得各类语音的原始模型,即N个原始模型,用于之后计算似然得分,N为大于1的自然数即设定的语音类别数。
进一步地,所述步骤S2的具体实现方式为:对于任一条训练语音,分别计算其中各帧在对应类别原始模型中的似然得分,进而对各帧的似然得分进行归一化,作为各帧的重要度权重。
进一步地,所述步骤S3的具体实现方式为:对于步骤S2所获得重要度权重,对训练语音内各帧按重要度权重从大到小进行排序,选取一定比例排名靠前的帧作为训练语音的核心帧。
进一步地,所述步骤S4的具体实现方式为:对于步骤S3所获得的核心帧,对其提取特征后按照类别分别进行训练以获得各类语音的核心模型,用于之后计算优化后的模型得分。
进一步地,所述步骤S5的具体实现方式为:对于任一条测试语音,分别计算其中各帧在对应类别原始模型中的似然得分,进而对各帧的似然得分进行归一化,作为各帧的重要度权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110514259.8/2.html,转载请声明来源钻瓜专利网。