[发明专利]一种MP3压缩域音频分割方法无效
申请号: | 200710171802.9 | 申请日: | 2007-12-06 |
公开(公告)号: | CN101221762A | 公开(公告)日: | 2008-07-16 |
发明(设计)人: | 余小清;万旺根;常辽豫;谭海英 | 申请(专利权)人: | 上海大学 |
主分类号: | G10L17/00 | 分类号: | G10L17/00;G10L19/00;H03M7/30;G06F17/30 |
代理公司: | 上海上大专利事务所 | 代理人: | 何文欣 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 mp3 压缩 音频 分割 方法 | ||
技术领域
本发明涉及信号处理和模式识别,主要是一种MP3(MPEG1-layer3)压缩域音频分割方法。
背景技术
说话人检索技术是指利用信号处理和模式识别方法,从大量音频文档中搜索特定说话人的技术。音频分割就是说话人检索技术需要解决的关键问题之一。
常用的音频分割方法,大部分工作都是在非压缩域中进行的,直接对压缩域中进行音频分割、并对说话人改变点进行检测的问题很少涉及。压缩域中的数据是来自于原始音频编码后的二进制码流,从这些数据流不能直接体现原始音频的一些特性。因此,压缩域中的音频分割首先要考虑的是特征提取的数据源问题,即如何对压缩数据进行处理,以最小的计算代价提取有效的音频特征来满足分割需要。理论分析及实验结果证明通过对压缩数据部分解码,可获得与原始音频谱特性相似的数据,以这些数据为数据源提取出的音频特征可以体现不同话者间语音的差别,并可用于进一步分割和分类。本发明正是采用上述的方法,从MPEG1标准声音第三层压缩技术MP3压缩域数据中提取特征参数梅尔倒谱系数MFCC(Mel-frequency CepstralCoefficients)、以及其他特征参数,对MP3压缩域的音频信息进行分割的。
本发明所提出的分割方法解决了MP3压缩域中不同话者的分割问题,可进一步用于MP3压缩域的语音识别与检索中。
发明内容
本发明的目的在于提供一种MP3压缩域音频分割方法,通过从MP3压缩数据中直接提取音频特征参数,通过语音检测和说话人改变的检测,实现将MP3音频数据分割成属于不同人的语音段,用于说话人检索的音频分割。
本发明解决其技术问题采用的技术方案为:先从MP3压缩音频数据中提取特征参数,再将音频信息进行静音分割,对非静音语音分割,在语音段中用统计判决模型进行说话人改变检测,最后由说话人改变点得到分割结果。
本发明解决其技术问题所采用的技术方案还可以进一步完善。首先从MP3压缩音频数据中生成修正离散余弦变换MDCT(Modified Discrete Cosine Transform)矩阵,再从中提取有效的特征参数,利用能量检测将静音去除,用基频特征去除非语音段,然后结合所提取的压缩域谱特征的变化趋势进行统计判决,实现了将音频分割成不同的说话人的语音段。该方法具体包括如下步骤:
1)、MP3压缩音频的预处理:包括对解码帧头,边信息读取,主数据读取,哈夫曼解码和量化四个部分;
2)、生成MDCT矩阵:找出每一子带中的MDCT系数,对子带中系数排列,形成矩阵三部分;
3)、压缩域特征参数的提取:包括能量参数,谱中心距,MFCC参数的求取;
4)、静音的检测:通过设定门限判别静音段和非静音段,并对结果做出修正;
5)、语音检测:对非静音部分进一不去除非语音成分;
6)、说话人改变点检测:根据高斯假设模型计算贝叶斯信息准则BIC值根据其值的变化趋势来寻找改变点。
本发明有益的效果是:直接从MP3压缩音频数据中提取有效的特征参数,比将压缩数据解压后再提取特征,既算法更简单,又节省计算时间;利用能量检测将静音去除,用基频特征去除非语音段,仅对语音段进行倒谱特征提取,又可节省计算时间,并且消除了非语音对说话人分割的不利影响;运用统计判决模型进行说话人检索的音频分割,比用传统的判决方法进行说话人检索的音频分割,精度提高了许多。
附图说明
图1是本发明的方法流程图
具体实施方式
本发明的一个优选实施例结合附图说明如下:本MP3压缩域音频分割方法,共分六步:
第一步:MP3压缩域音频数据处理
压缩域音频数据的处理分为帧头信息的读取,边信息的读取,主数据的读取,哈夫曼解码和量化。
1、帧头信息的读取
A)、定义存放帧头信息的结构体layer;
B)、读取帧中的同步信息;
C)、使解码器与数据流同步;
D)、确定该帧数据开始的位置,把帧头信息存放于layer类型的变量Headi中。
2、边信息的读取
A)、定义存放边信息的结构体sideinf;
B)、由帧头结束的地方确定边信息开始位置;
C)、读取边信息存放于sideinf类型的变量Sidei中。
3、主数据的读取
A)、定义存放缩放因子的结构scalefac,存放主数据大小的变量Maindata;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710171802.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:网页搜寻结果的表列显示方法
- 下一篇:一种高强抗皱珍珠纤维纱的纺纱方法