[发明专利]基于音素级分析抑制音素影响的合成语音检测方法在审

申请号：	202010572748.4	申请日：	2020-06-22
公开（公告）号：	CN111816203A	公开（公告）日：	2020-10-23
发明（设计）人：	魏建国;刘畅	申请（专利权）人：	天津大学
主分类号：	G10L25/30	分类号：	G10L25/30;G10L25/45;G10L25/51;G10L25/69;H04L29/06
代理公司：	天津市北洋有限责任专利代理事务所 12201	代理人：	刘国威
地址：	300072***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于音素分析抑制影响合成语音检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于音素级分析抑制音素影响的合成语音检测方法，其特征是，使用F-ratio对不同真实语音和欺诈语音中的不同音素的各个频段进行分析，F-ratio称为方差比检验，是通过比较类内和类间的方差，来发现各分类中的差异分布情况，通过所述分析找出更有利于鉴别真实语音和欺诈语音的频率范围，增加该频段上的滤波器密度，得到新的特征，并用该特征分别训练真实语音和欺诈语音的高斯混合模型GMM，将待识别的音频提取特征后分别输入两个模型，最后将两个模型的结果用最大似然比打分，得到最终的识别结果。

2.如权利要求1所述的基于音素级分析抑制音素影响的合成语音检测方法，其特征是，具体步骤如下：

步骤一，数据准备：

首先，对语音数据进行标注，即获取音频中的每个音素以及它们的起始时间信息，然后分别对真实语音和欺诈语音中的各个音素进行研究，使用均匀的子带滤波器来处理语音音频中的每一帧，进而获得不同音素的每一帧上各个频带的数据；

步骤二，数据分析：

对上一步获取到的数据使用音素级的F-ratio方法进行分析，某个频段上的F-ratio值用来表征该频段在鉴别真实语音和欺诈语音时的能力，F-ratio的值越大，表示这一频道上携带的可供鉴别的信息更多，鉴别能力越强，之后根据所有频道上的F-ratio值，对结果做归一化，然后以各个音素的帧数为权值，对音素的每个频带上归一化的数据做加权平均，最终得到抑制了音素影响后各个频带上的鉴别能力，结果越大表示鉴别能力越强；

步骤三，提取特征：

根据第二步的实验结果，在鉴别能力较强的区域，增加滤波器的个数，起到增加滤波器在这些区域中的密度的作用，再使用这些滤波器对经过分帧、加窗和短时傅里叶变换后的语音信号进行滤波，最后经过离散余弦变换DCT得到抑制音素影响的新特征；

步骤四，模型训练

将训练集中的音频提取特征作为输入，分别训练真实语音和欺诈语音的高斯混合模型GMM；

步骤五，打分确认

将待测语音提取到的特征分别输入进真实语音和欺诈语音的模型中进行打分，再用最大似然比分类法得出最终的结果。

3.如权利要求2所述的基于音素级分析抑制音素影响的合成语音检测方法，其特征是，步骤二，数据分析具体步骤如下：

使用基于音素的F-ratio分析方法PF(Phoneme F-ratio)对不同音素中的各个频段进行分析，PF的分析思路为计算某一音素k在第l个滤波器上不同方法之间的方差与同一方法内部的方差之比，值越高就说明不同方法在这一区域的差异性越大，PF的具体计算公式如下：

其中，T表示方法种类，Ntk表示第t个类型中第k个音素的帧数；表示第t个类型第k个音素第j帧中第l个滤波器上的数据；表示第t个类型第k个音素的每一帧第l个滤波器上的数据平均值；u_k表示所有类型第k个音素的每一帧第l个滤波器上的数据平均值，和u_k的公式如下：

之后对得到的PF值进行归一化处理，即可得到第l个滤波器频带上音素的F-ratio贡献率PFC(Phoneme F-ratio Contribution)，其计算公式如下：

其中L为均匀的子带滤波器个数；计算得到的PFC可以反映出不同音素中，用于鉴别欺诈语音的信息的频率分布，接下来对各音素的PFC根据其帧数进行加权平均，得到整体F-ratio值GF(General F-ratio)，其计算公式如下：

其中P是所有音素的总数，N为所有音素的总帧数，N的计算公式如下：

对计算出的GF再进行归一化处理，可以得到抑制音素影响的欺诈攻击信息分布PESSDID(Phoneme Effect Suppressed Spoof Detection Information Distribution)，其计算公式如下：

这里滤波器l的PESSDID的值越高，说明该滤波器的频段上的可以用于鉴别欺诈攻击的信息越多。

4.如权利要求2所述的基于音素级分析抑制音素影响的合成语音检测方法，其特征是，步骤三，提取特征步骤中：除了滤波器分布的区别外，其他特征提取的过程包括：使用滤波器前的步骤包括预加重、分帧和加窗，再经过短时傅里叶变化，得到每一帧的频谱特征，之后用滤波器对频谱特征进行处理，处理后再经过DCT变换，得到最终的特征。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于天津大学，未经天津大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010572748.4/1.html，转载请声明来源钻瓜专利网。

上一篇：一种网络流量的网络级测量方法
下一篇：一种可更换滤芯口罩、滤芯加工工艺及口罩加工工艺

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于音素级分析抑制音素影响的合成语音检测方法在审

专利文献下载