[发明专利]一种音频翻录检测方法在审
申请号: | 201510407042.1 | 申请日: | 2015-07-13 |
公开(公告)号: | CN105118503A | 公开(公告)日: | 2015-12-02 |
发明(设计)人: | 康显桂;林晓丹 | 申请(专利权)人: | 中山大学 |
主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L15/04;G10L15/16;G10L19/018 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音频 翻录 检测 方法 | ||
技术领域
本发明涉及信息安全领域范畴,具体而言,是一种基于深度学习的音频翻录检测技术。
背景技术
近年来,随着数字音频处理技术和硬件设备的发展,音频可以实现高保真的翻录,由此带来了一系列关于数字音频数据的原始性和安全性等问题,例如利用翻录音频实现音频指纹的拷贝,将翻录音频发布到互联网上等涉及媒体信息的版权保护问题,然而在不借助任何辅助信息的情况下,目前并没有可靠的方法来实现音频翻录检测,深度学习方法为我们解决这些问题提供了一种可行的路线。
由于音频翻录通常不涉及音频内容的完整性,其安全性问题一直没有得到重视。人们更多地关注于音频翻录带来的好处,确切地说是数字化带来的优势,例如通过音频的高保真翻录能够克服磁带等因为保存条件和使用年限长而失效的问题。然而近年来热门的声纹识别技术以及愈发严重的版权保护问题,音频数据的安全性面临着严峻的挑战。
脆弱水印技术可在原始音频数据中嵌入有意义的认证信息(水印),借助于该信息的完整和真实性也可实现翻录检测。例如,在翻录后的录音信号中无法检测到水印。然而目前的录音设备大多不支持这种技术,因此在不借助辅助信息下的盲检测方法实用性更高。
发明内容
本发明的目的是提供一种翻录音频的检测方法,对于一段待检测音频,能够可靠鉴别其是原始音频或是翻录音频。
为了实现上述目的,本发明采用的技术方案为:
一种翻录音频的检测方法,将翻录音频检测等效为一个二分类问题,采用基于深度学习的方法进行分类器的训练和样本分类,翻录音频的检测包括以下几个步骤:
S1.音频预处理,对任意采样率的音频进行降采样,对降采样后的音频信号进行滤波,去除语音内容的干扰,得到音频携带的电网频率基波及谐波分量;该滤波过程是采用电网频率的基波和各次谐波频率为带通中心的窄带滤波;
S2.构建训练样本,将上述滤波后的信号进行短时傅里叶变换,得到电网频率信号的时频特征;利用深度学习算法对电网频率信号的时频特征进行更精细的学习,该方法是有监督学习的二分类方法,利用预先标定的正负样本,将正负样本的电网频率信号时频特征作为输入,训练一个多层神经网络模型,正样本为翻录音频,负样本为原始音频;
S3.翻录检测:对待检测音频进行分段,将每个分段的时频特征输入训练好的分类器,网络将自动标记出每个分段的类别;若多数分段被标记为正样本,则该音频被判断为翻录音频,否则为原始音频。
电网频率信号的分析和学习:电网频率信号分析过程如下:1)降采样,由于我国使用的电网频率为50Hz,而录音信号的采样频率远高于电网频率,因此降采样可以有效降低该方法的运算复杂度;2)滤波,去除语音内容的干扰,只留下与电网频率信号有关的成分。对降采样后的信号,分别采用以电网频率的基波和各次谐波频率为带通中心的窄带滤波。经过窄带滤波后,剩下的主要成分为音频携带的电网频率基波分量及其谐波分量。
上述电网频率信号特征的学习过程:1)是将上述滤波后的信号进行短时傅里叶变换,得到电网频率信号的时频特征;2)利用深度学习算法对电网频率信号的时频特征进行更精细的学习,该方法是有监督学习的二分类方法,利用预先标定的正负样本,将正负样本的电网频率信号时频特征作为输入,训练一个多层神经网络,正样本为翻录音频,负样本为原始音频;3)翻录检测:对待检测音频进行分段,将每个分段的时频特征输入训练好的分类器,网络将自动标记出每个分段的类别;4)若多数分段被标记为正样本,则该音频被判断为翻录音频,否则为原始音频。
对于音频信号,将其进行短时傅里叶变换得到语谱图作为神经网络的输入,可以充分利用其时频特征;并且滤波后的信号语谱图可视为电网频率信号的图像表示,后续的训练和学习分类过程都可利用卷积神经网络,这类网络常用于图像的分类。
原始音频只记录了一次电网频率信号,翻录音频记录了两次电网频率信号。两个电网频率信号距离相近甚至发生混叠,因此用传统的信号处理方法难以进行区分。深度学习网络由于使用了多核卷积操作,能够对单个电网频率和两个电网频率信号作更精细的区分。
采用电网频率的基波及其谐波成分合成多通道作为深度学习网络的输入,可以充分利用各谐波成分的能量特征以及频率分辨率提高识别性能。
判断一段长的语音数据是否为翻录音频可采取的方法:将长音频按照深度学习网络的输入要求进行分段,随机选取多段音频进行判断,若多数被标记为正样本,则该音频被判断为翻录音频,否则为原始音频。该方法可以提高检测速度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510407042.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种工程用模具
- 下一篇:一种高强度钢板成型折弯冲压模具