[发明专利]一种MP3压缩域音频分割方法无效
申请号: | 200710171802.9 | 申请日: | 2007-12-06 |
公开(公告)号: | CN101221762A | 公开(公告)日: | 2008-07-16 |
发明(设计)人: | 余小清;万旺根;常辽豫;谭海英 | 申请(专利权)人: | 上海大学 |
主分类号: | G10L17/00 | 分类号: | G10L17/00;G10L19/00;H03M7/30;G06F17/30 |
代理公司: | 上海上大专利事务所 | 代理人: | 何文欣 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 mp3 压缩 音频 分割 方法 | ||
1.一种MP3压缩域音频分割方法,其特征在于:首先从MPEG1标准声音第三层压缩技术MP3文件中得到体现原始音频频域特性的数据,其次对这些数据计算能量和频域特征参数,然后使用这些参数去除静音部分并检测出语音;最后在语音片段间检测话者的改变,由此得到最终分割结果。
2.根据权利要求1所述的MP3压缩域音频分割方法,其特征在于:具体操作步骤如下:
a.MP3压缩音频的预处理:包括对解码帧头,边信息读取,主数据读取,哈夫曼解码和量化;
b.生成修正离散余弦变换MDCT矩阵:找出每一子带中的MDCT系数,对子带中系数排列,形成矩阵;
c.压缩域特征参数的提取:包括能量参数,谱中心距SC,梅尔倒谱系数MFCC参数的求取;
d.静音的检测:通过设定门限判别静音段和非静音段,并对结果做出修正;
e.语音检测:对非静音部分进一步去除非语音成分;
f.说话人改变点检测:根据统计判决模型进行说话人改变检测。
3.根据权利要求2所述的MP3压缩域音频分割方法,其特征在于:所述的MP3压缩音频预处理具体步骤是:
a.帧头信息的读取
(a).定义存放帧头信息的结构体layer;
(b).读取帧中的同步信息;
(c).使解码器与数据流同步;
(d).确定该帧数据开始的位置,把帧头信息存放于layer类型的变量Headi中;
b.边信息的读取
(a).定义存放边信息的结构体sideinf;
(b).由帧头结束的地方确定边信息开始位置;
(c).读取边信息存放于sideinf类型的变量Sidei中;
c.主数据的读取
(a).定义存放缩放因子的结构scalefac,存放主数据大小的变量Maindata;
(b).计算主数据的长度并将该值存放于Maindata变量中;
(c).申请Maindata大小的内存空间Memory;
(d).读取主数据到Memory中;
(e).从Memory中读取缩放因子到scalefac类型的变量Scalei中;
c.哈夫曼解码和反量化
(a).定义一个颗粒中存放哈夫曼解码数据的数组is[32][18];
(b).根据边信息Sidei确定主数据中的哈夫曼数据的起始位置;
(c).对哈夫曼数据进行解码并将解码数据放在is[32][18]中;
(d).对is[32][18]中的数据进行反量化,仍存放于is[32][18]中。
4.根据权利要求2所述的MP3压缩域音频分割方法,其特征在于:所述的生成MDCT矩阵具体步骤是:
a.找出每一子带系数
(a).找出is[32][18]中每一子带的MDCT系数Si,共32个;
(b).定义Si子带中的系数为Si[j],每一子带系数18个;
b.形成行向量
(a).按频率高低原则重新排列Si中系数,仍存放于Si[j]中;
(b).将每一子带排列完成后的Si[j]看作是矩阵中的行向量;
c.形成矩阵
(a).将Si[j]行向量依子带序号组合形成32×18M[i][j];
(b).依照上述原则,一帧中两个颗粒的MDCT系数矩阵表示为M1[i][j],M2[i][j]。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710171802.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:网页搜寻结果的表列显示方法
- 下一篇:一种高强抗皱珍珠纤维纱的纺纱方法