[发明专利]一种用于检测合成语音的二维时频特征生成方法有效

申请号：	202110961351.9	申请日：	2021-08-20
公开（公告）号：	CN113488074B	公开（公告）日：	2023-06-23
发明（设计）人：	何沛松;李佳龙;王宏霞	申请（专利权）人：	四川大学
主分类号：	G10L25/51	分类号：	G10L25/51;G10L25/18
代理公司：	成都盈信专利代理事务所(普通合伙) 51245	代理人：	崔建中
地址：	610065 四***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种用于检测合成语音二维特征生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种音频信号的长时变Q时频转换算法(L‑VQT)及其应用。L‑VQT包括步骤：设置呈幂函数变化的频率分布；预设最大时域窗口长度，得到最小频带宽度；如果存在一个以上频带宽度小于最小频带宽度，则重新设置频率分布并计算幂函数的系数、每个频率的频带宽度和Q因子；计算每个频率对应的时域窗口长度；计算每个频率对应的频域信号。L‑VQT在低频通过长时窗口来捕获音频时域信号的长时依赖关系，通过设置不同的幂函数指数获取充分高频信息。应用于合成语音检测时，在低频通过长时窗口来捕获合成语音痕迹，并通过设置不同的幂函数指数得到具有充分高频信息的对数频谱特征来提取合成语音在高频的共性痕迹，为合成语音检测提供了有效的方法。

技术领域

本发明涉及音频信号处理技术领域，特别是一种用于检测合成语音的二维时频特征生成方法。

背景技术

音频信号能表示和传达丰富的信息，对音频信号进行分析需要通过时频转换算法转换为频域信号，从频域信号中得到各种频谱幅度及相位特征。传统的时频转换算法包括傅里叶变换(DFT)和恒Q变换(CQT)。DFT通常采用短时窗口，无法捕获音频信号在时域的长时依赖关系，同时恒定的频带宽度和线性变化的频率分布无法准确表示某些音频信号特性，例如音乐信号等。另一方面，CQT的频率呈指数分布，符合西方音阶频率变化，但是指数分布的频率导致频域信息中高频部分信息占比很少，无法充分满足对高频信息的需要，例如合成语音检测等。

语音信号被广泛使用在身份认证，例如自动说话人识别系统。随着语音转换(Voice Conversion，VC)和文本语音转换(Text-To-Speech，TTS)技术的发展，合成语音的质量越来越高，很容易欺骗现有的说话人识别系统。因此，合成语音检测成为信息安全领域多媒体取证技术的一个急需解决的问题。合成语音算法可以分为拼接合成语音和统计参数合成语音，拼接合成语音会在语音拼接处留下特有痕迹，这种痕迹需要捕获语音的长时依赖关系来提取，同时统计参数合成语音会在语音的高频部分留下特有痕迹。现有的合成语音检测特征包括基于DFT和基于CQT的频谱相位以及倒谱特征，然而DFT采用短时窗口，无法捕获合成语音在时域留下的长时依赖痕迹；CQT的频率呈指数分布，高频占比很少，无法充分捕获合成语音在高频的特有痕迹。因此，现有的时频转换算法无法充分提取合成语音的共性痕迹来进行通用检测。

发明内容

本发明的目的是提供一种用于检测合成语音的二维时频特征生成方法。

实现本发明目的的技术方案如下：

一种用于检测合成语音的二维时频特征生成方法，包括步骤：

将待分析语音分帧得到L帧；

将每帧信号通过音频信号的长时变Q时频转换算法，得到K个频域信号X(k)；

对每个频域信号进行取模平方得到频谱，再进行对数运算，提取一维对数频谱特征

将所有帧的一维对数频谱特征拼接，得到二维时频特征用于检测合成语音；

所述音频信号的长时变Q时频转换算法(Long-term variable Q transform，L-VQT)，具体为：步骤1，预设音频信号的频率总个数K和幂函数的指数β，设置呈幂函数变化的频率分布：

f_k＝αk^β，k＝0,1,…,K-1；

其中，f_k表示第k个频率；

计算幂函数的系数：F_Nq是奈奎斯特频率；