[发明专利]一种基于空耳文本的音乐检索方法在审
申请号: | 202011095696.2 | 申请日: | 2020-10-14 |
公开(公告)号: | CN112380376A | 公开(公告)日: | 2021-02-19 |
发明(设计)人: | 叶洪良;朱皖宁 | 申请(专利权)人: | 金陵科技学院 |
主分类号: | G06F16/632 | 分类号: | G06F16/632 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 蒋昱 |
地址: | 210000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 音乐 检索 方法 | ||
1.一种基于空耳文本的音乐检索方法,操作过程基于编码器和WaveNet的TextToHumming框架,该框架由一个编码器和一个WaveNet声码器组成,具体步骤如下,其特征在于:
1)将空耳文本进行罗马化的操作,使之变成一个同一标准的编码随后采用了一个TextToHumming框架,该框架采用WaveNet作为声码器,并且在输入进WaveNet之前,通过一个编码器,捕获文本之间的高阶映射,通过该框架,通过将空耳的文本转换成相应的音乐哼唱片段,具体算法流程如下:
11)获取空耳文本,如果空耳文本为统一标准,则不需要对该空耳文本进行处理,否则将其进行罗马化处理,将其转换为拉丁字符;
12)通过对拉丁字符进行处理,转换成输入矩阵X;
13)对WaveNet的输出进行缩放,缩放采用μ-law压缩变换,将输出的波形的值压缩至可接受的范围,设将输出值压缩至K,采用以下函数对输出进行压缩:
其中yt为原本输出的一个分量,其范围为-1yt<1;
14)编码器采用KL loss作为损失函数,定义如下,设Y为原始输出,设Y'为预测值,则损失函数的表达式为:
15)WaveNet声码器除了输入层的大小变为编码器的输出大小,网络的架构采用WaveNet采用原始的架构和损失函数,即网络扩张率为2k,其中K表示网络处于第几层,卷积核的大小为3.除此之外,每个残差层都包含一个ReLu非线性激活函数;
16)将预测值通过μ-law逆变换转换为哼唱音频;
2)进行哼唱检索算法,为DTW算法添加了浮动系数,使之更加适用通过空耳文本生成的哼唱音乐的检索,具体算法流程如下:
21)假设D是一组音乐的时间序列的数据库,即D={X1,X2,...,XN},其中N为该音乐数据库的大小;
22)假设X={x1,x2,....,xn}表示一个音乐的时间序列,其中n表示音乐序列的大小。设X[s:t]={xs,xs+1,....,xt},其中s≥1且t≤n,其中xs是该集合的第一个元素,xt是该集合的最后一个元素,即X[s:t]是X的一个子序列,定义如下函数:
DTW(Q,X)=f(m,n)
f(0,0)=0
f(i,0)=∞
f(0,j)=∞
23)增加三个波形拟合参数α1,α2,α3,用于改变算法的搜索路径的权重;
24)那么DTW中动态规划的搜索函数为:
25)给定长度为n的多维序列X和长度为m的Q,求出X的某个子序列X[s:t]使得X[s:t]是X中所有字串到Q的距离的距离是最小的,即对于任意的i≤n,j<m,都有DTW(X[s:t],Q)≤DTW(X[i:j],Q),
26)那么Top-K子序列查询定义为给定一组多维序列D和一个查询序列Q,找出集合D中满足DTWsub(X1,Q)≤DTWsub(X2,Q)≤......DTWsub(Xk,Q)的集合Topk={X1,X2,...,Xk};
27)并且对于其他的Xt∈D且都有DTWsub(Xk,Q)≤DTWsub(Xj,Q);
28)生成该片段检索到的Top-K音乐列表。
2.根据权利要求1所述的一种基于空耳文本的音乐检索方法,其特征在于,所述基于空耳文本的音乐检索方法对应硬件配套如下:
CPU:Intel(R)Xeon(R)E5-2660 v4@2.00GHz GPU:NVIDIA GV100GL[Tesla V100 PCIe32GB]GPU大小:32GB内存:48GB。
3.根据权利要求1所述的一种基于空耳文本的音乐检索方法,其特征在于,所述基于空耳文本的音乐检索方法对应软件配套如下:
操作系统为64位Ubuntu 16.04.6 LTS,cuda版本为cuda 10,python版本为3.6.4,深度学习框架tensorflow-gpu 1.8.0,keras 2.2.4,音乐处理框架有librosa 0.72等。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于金陵科技学院,未经金陵科技学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011095696.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于动态目标策略的云计算资源调度优化方法及应用
- 下一篇:一种卷料放卷系统