[发明专利]一种基于语义理解的音频资源管理方法有效
申请号: | 201110083131.7 | 申请日: | 2011-04-02 |
公开(公告)号: | CN102143001A | 公开(公告)日: | 2011-08-03 |
发明(设计)人: | 马建国;邢玲;朱敏 | 申请(专利权)人: | 西南科技大学 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;G10L19/00 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 温利平 |
地址: | 621010 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 理解 音频 资源管理 方法 | ||
1.一种基于语义理解的音频资源管理方法,其特征在于,包括以下步骤:
(1)、在网络源端对音频资源进行资源整合
在对音频资源进行语义理解的基础上实现语义标引,从而生成该音频资源的语义标引信息;所述的语义标引是指对音频资源的语义进行多维度的标引,使形成的语义标引信息能够全方位地具体地反应一个特定的音频资源;
将音频资源的语义标引信息作为语义水印嵌入到音频资源中,得到带有语义标引信息的音频资源;
(2)、网络源端发送带有语义标引信息的音频资源给用户终端;
(3)、用户终端对接收到的带有语义标引信息的音频资源进行语义解析,并对解析出的语义标引信息进行一个初步的过滤,以此判断是否将接收到的音频资源在本地储存;
所述的语义解析是指提取嵌入到音频资源中的语义水印,恢复成对音频资源进行多维度标引的语义标引信息;所述的初步过滤是检查解析出的语义标引信息是否同用户终端已经存储有的音频资源的语义标引信息相同,如果相同,则放弃接收到音频资源,如果不同,则将接收到的音频资源在本地储存;
(4)、用户终端将接收到各个音频资源的语义标引信息分别用三阶张量表示,然后计算它们之间的张量语义离散度,最后,根据张量语义离散度对接收到音频资源进行分类管理。
2.根据权利要求1所述的基于语义理解的音频资源管理方法,其特征在于,所述的语义标引信息有17个语义,分为三大类:
由资源类型、分级、标准、文件长度、文件大小以及语言等6个元素组成的外部属性信息;
由艺术家、出版者、日期、标题以及专辑等5个元素组成的版权管理信息;
由音色、旋律、流派、情感、乐器以及描述等6个元素组成的本征语义信息。
3.根据权利要求1所述的基于语义理解的音频资源管理方法,其特征在于,所述的步骤(1)中,还将音频资源的传输优先级信息构成的传输优先级水印嵌入到音频资源中;
用户对不同音频资源的不同需求程度,将音频资源的传输优先级分为高,中,低三个级别,在步骤(2)的网络传输时,将解析出音频资源的传输优先级,传输优先级越高的音频资源将优先传输。
4.根据权利要求1所述的基于语义理解的音频资源管理方法,其特征在于,所述的步骤(1)的嵌入为:
步骤ST1021:对音频资源的每一帧音频信号进行子带滤波;
步骤ST1022:对子带滤波后的音频信号进行MDCT变换;
步骤ST1023:量化MDCT系数;
步骤ST1024:选取合适的MDCT系数分别作为语义水印以及传输优先级水印嵌入的最优位置;
MDCT系数的选择应最大程度的保证语义水印以及传输优先级水印的不可听性和鲁棒性;
步骤ST1025:将语义标引信息进行预处理,得到含有语义标引信息的随机序列;
步骤ST1026:将音频资源的传输优先级信息进行预处理,得到含有对音频资源不同的传输优先级的随机序列。
步骤ST1027:将步骤ST1025、步骤ST1026得到的包含有语义标引信息、传输优先级的两个序列分别嵌入到步骤ST1024选出的最优位置,得到带有语义标引信息和传输优先级的音频资源。
5.根据权利要求4所述的基于语义理解的音频资源管理方法,其特征在于,所述的步骤(3)具体为:
步骤ST301:根据选则最优嵌入位置的方法的逆运算,在接收到的带有语义标引信息的音频资源中,找到语义水印的嵌入位置,提取出包含语义标引信息的随机序列;
步骤ST302:根据产生随机序列采取的伪随机处理方法,对包含语义标引信息的随机序列进行逆变换,将提取的随机序列恢复成语义标引信息;
步骤ST303:检查解析出的语义标引信息是否同用户终端已经存储有的音频资源的语义标引信息相同,如果相同,则放弃接收到音频资源,如果不同,则将接收到的音频资源在本地储存。若本地文件中没有该语义标引信息或者不完全,则将该信息储存到本地文件中,刷新本地存储,实现对音频资源的初步过滤,对音频文件进行管理。
6.根据权利要求1所述的基于语义理解的音频资源管理方法,其特征在于,所述的步骤(4)具体为:
步骤ST401:将接收到各个音频资源的语义标引信息用三阶张量表示,其中I1、I2、I3分别是进行语义标引信息的外部属性信息的特征向量、版权管理信息的特征向量及本征语义信息的特征向量的维数,则所有的接收到音频数据集合X={X1,X2,...,Xn}都在此张量空间内;
步骤ST402:对所有的音频资源类别,在张量语义离散度计算中,定义音频资源属于同一类别的类内语义离散度为α,属于不同类别的类间语义离散度为β;
步骤ST403:满足类内语义离散度α最小,类间语义离散度β最大时的类别信息作为TSD,即张量语义离散度经验知识;
步骤ST404:将所得到的TSD经验知识初始化RBF张量神经网络模型,并确定网络拓扑结构中权值和隐层神经元的个数;
步骤ST405:利用RBFTNN算法将得到张量语义离散度经验知识作为样本数据进行迭代训练,完成RBFTNN分类模型建立,并存入RBFTNN模型库,以用于对资源信息的自动分类;
步骤ST406:针对任一需找出目标类别的音频语义资源,用模型库中的RBFTNN模型寻找资源目标输出,若能找出分类目标,返回目标类别,若不能,则对该类新音频资源重新执行离散度分类及RBFTNN模型建立的过程,并最终更新模型库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南科技大学,未经西南科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110083131.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种建立业务的方法和节点
- 下一篇:基于线性分组码的编码方法及装置