[发明专利]一种音调序列的鲁棒阶跃规整方法有效

专利信息
申请号: 201610231868.1 申请日: 2016-04-14
公开(公告)号: CN105741857B 公开(公告)日: 2019-06-14
发明(设计)人: 李玉鑑;时康凯;杨红丽 申请(专利权)人: 北京工业大学
主分类号: G10L25/90 分类号: G10L25/90;G10L25/03;G10L25/54
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 沈波
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种音调序列的鲁棒阶跃规整方法,用于将不准确的音调值规整到更符合上下文的音调值上,在音调值的确定上有很好的效果。具体过程包括:首选对输入音频数字信号提取原始音调序列,然后反复截取长度固定的子音调序列,并映射到规整矩阵中,其次扩展该规整矩阵,构造相应的图结构,求解其中的路径以生成路径关联矩阵,最后通过分析路径关联矩阵找到符合上下文的音调值作为音调校准值。本发明对音调序列规整的目标结果符合实际情况,对声音音调值的提取也更加准确可靠;对音调序列规整的过程可控,通过自行设定相关参数可以让规整的过程更加灵活;在音调序列值分散较大的情况仍然会有很好的效果,具备很好的鲁棒性。
搜索关键词: 一种 音调 序列 阶跃 规整 方法
【主权项】:
1.一种音调序列的鲁棒阶跃规整方法,其特征在于:本方法包括以下步骤:S1对输入长度为t的音频数字信号x1,x2,…,xt提取原始音调序列:a)设置数字信号的帧长度为L,把信号划分为个不重叠的数据帧;b)对每一帧音频信号,利用短时平均幅度差函数或短时自相关函数或加权短时自相关函数方法计算出与原始音频信号波形具有相同周期的中间函数波形;c)提取中间函数波形的极值点序列K1,K2,…,Ku,及相应的位置点序列P1,P2,…,Pu,u为极值点个数兼位置点个数;d)利用极值点序列计算中间函数波形的频率f,设定n的初值为2,具体步骤如下:i.按顺序取第1到n个极值点构成极值向量a,取第n+1到2·n个极值点构成极值向量b;ii.利用公式计算a,b之间的余弦相似度;iii.把n增加2,重复步骤i到iii直到n大于u/2;iv.把sim2,sim4,…,simn从大到小排列,取出所有simn大于Δ的n值,求这些n值两两之间的最大公约数d,取出现次数最多的公约数D,作为波形信号每个周期中最可能包含的极值点个数;v.根据公约数D、极值点序列K1,K2,…,Ku和位置点序列P1,P2,…,Pu,从P1开始计算包含D个极值点的时间区间,作为周期值period,并计算出频率f=1/period;e)利用频率值f和公式Semitone=log2(f/440)*12+69计算每一帧信号的音调值;f)将所有计算得到的音调值记为T1,T2,…,Ts该序列就是原始音调序列;S2设置音调持续的最短时间阈值H;利用音频采样率Q,计算该时间阈值内音调值的个数N,具体计算公式是:S3输入需要校准规整的音调序列T1,T2,…,Ts,设置移位偏移量i初值为N+1;S4构造一个(2·N+1)×(2·N+1)的规整矩阵M,具体步骤如下:g)在T1,T2,…,Ts中以Ti为中心截取Ti及左右两边各N个音调值,组成序列S1,S2,…,S2·N+1,并置规整矩阵M为全0矩阵;h)找到S1,S2,…,S2·N+1的最大值MAX与最小值MIN;i)计算以及第row行的参考值SCALErow=MAX‑(row‑1)·λ,row=1,2,…,2·N+1;j)对每一个元素Sc,c=1,2,…,2·N+1,找到和Sm最接近的参考值SCALEr,令M的第r行第c列元素值为1,即Mr,c=1;S5利用规整矩阵M构造两个与之完全相同的矩阵EM,XM;用EMp,q代表矩阵EM第p行第q列的元素,用XMp,q代表矩阵XM第p行第q列的元素;S6对EM进行扩展操作:对任意XMp,q,当XMp,q为1时,令EMp,q‑1和EMp,q+1为1;S7将矩阵EM转换成无向图G=<V,E>,具体步骤如下:k)无向图G的顶点集V由EM中EMp,q=1的元素构成;l)无向图G的边集E由所有EMp,q=1和EMp‑1,q=1的顶点对,EMp,q=1和EMp+1,q的顶点对,以及EMp,q=1和EMp,q+1的顶点对构成;m)把图G的顶点集分为2·N+1层,第q层记作Yq,由EM中所有EMp,q=1的元素构成;S8在图G中求解由第1层到2·N+1层的路径:若路径不存在,则需要将矩阵EM值赋给矩阵XM,并跳转到S6执行;若路径存在,则对规整矩阵M构造路径关联集合PS,具体构造步骤如下:n)在图G中找到包含该路径的连通分支PC;o)对连通分支PC中的任意元素EMp,q,如果Mp,q=1,则将Mp,q添加到集合PS中;S9统计PS中每一个元素Mp,q的p值,取出现次数最多的p值记为R,当多个p值出现次数均为最多时,R取最小的p值;把和第R行的参考值SCALER相差最小的音调值Sj作为当前音调值Ti的校准值,记作TWi=Sj;S10把i值增加1,当i<L‑N时,重复S4~S9,直到把输入的音调序列每个值都规整完毕;S11将音调校准值序列TW1,TW2,…,TWs赋给T1,T2,…,Ts。S12循环执行S3~S11共N次,最终得到的输出值序列T1,T2,…,Ts即为最终的校准值序列;1>Δ>0.80;0.01秒<H<1.00秒。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610231868.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top