[发明专利]一种MP3压缩域音频分割方法无效

申请号：	200710171802.9	申请日：	2007-12-06
公开（公告）号：	CN101221762A	公开（公告）日：	2008-07-16
发明（设计）人：	余小清;万旺根;常辽豫;谭海英	申请（专利权）人：	上海大学
主分类号：	G10L17/00	分类号：	G10L17/00;G10L19/00;H03M7/30;G06F17/30
代理公司：	上海上大专利事务所	代理人：	何文欣
地址：	200444***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种 mp3 压缩音频分割方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种MP3压缩域音频分割方法，其特征在于：首先从MPEG1标准声音第三层压缩技术MP3文件中得到体现原始音频频域特性的数据，其次对这些数据计算能量和频域特征参数，然后使用这些参数去除静音部分并检测出语音；最后在语音片段间检测话者的改变，由此得到最终分割结果。

2.根据权利要求1所述的MP3压缩域音频分割方法，其特征在于：具体操作步骤如下：

a.MP3压缩音频的预处理：包括对解码帧头，边信息读取，主数据读取，哈夫曼解码和量化；

b.生成修正离散余弦变换MDCT矩阵：找出每一子带中的MDCT系数，对子带中系数排列，形成矩阵；

c.压缩域特征参数的提取：包括能量参数，谱中心距SC，梅尔倒谱系数MFCC参数的求取；

d.静音的检测：通过设定门限判别静音段和非静音段，并对结果做出修正；

e.语音检测：对非静音部分进一步去除非语音成分；

f.说话人改变点检测：根据统计判决模型进行说话人改变检测。

3.根据权利要求2所述的MP3压缩域音频分割方法，其特征在于：所述的MP3压缩音频预处理具体步骤是：

a.帧头信息的读取

(a).定义存放帧头信息的结构体layer；

(b).读取帧中的同步信息；

(c).使解码器与数据流同步；

(d).确定该帧数据开始的位置，把帧头信息存放于layer类型的变量Head_i中；

b.边信息的读取

(a).定义存放边信息的结构体sideinf；

(b).由帧头结束的地方确定边信息开始位置；

(c).读取边信息存放于sideinf类型的变量Side_i中；

c.主数据的读取

(a).定义存放缩放因子的结构scalefac，存放主数据大小的变量Maindata；

(b).计算主数据的长度并将该值存放于Maindata变量中；

(c).申请Maindata大小的内存空间Memory；

(d).读取主数据到Memory中；

(e).从Memory中读取缩放因子到scalefac类型的变量Scale_i中；

c.哈夫曼解码和反量化

(a).定义一个颗粒中存放哈夫曼解码数据的数组is[32][18]；

(b).根据边信息Side_i确定主数据中的哈夫曼数据的起始位置；

(c).对哈夫曼数据进行解码并将解码数据放在is[32][18]中；

(d).对is[32][18]中的数据进行反量化，仍存放于is[32][18]中。

4.根据权利要求2所述的MP3压缩域音频分割方法，其特征在于：所述的生成MDCT矩阵具体步骤是：

a.找出每一子带系数

(a).找出is[32][18]中每一子带的MDCT系数S_i，共32个；

(b).定义S_i子带中的系数为S_i[j]，每一子带系数18个；

b.形成行向量

(a).按频率高低原则重新排列S_i中系数，仍存放于S_i[j]中；

(b).将每一子带排列完成后的S_i[j]看作是矩阵中的行向量；

c.形成矩阵

(a).将S_i[j]行向量依子带序号组合形成32×18M[i][j]；

(b).依照上述原则，一帧中两个颗粒的MDCT系数矩阵表示为M₁[i][j]，M₂[i][j]。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海大学，未经上海大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200710171802.9/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L17-00 讲话者辨认或验证

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种MP3压缩域音频分割方法无效

专利文献下载