[发明专利]一种音调序列的鲁棒阶跃规整方法有效
申请号: | 201610231868.1 | 申请日: | 2016-04-14 |
公开(公告)号: | CN105741857B | 公开(公告)日: | 2019-06-14 |
发明(设计)人: | 李玉鑑;时康凯;杨红丽 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G10L25/90 | 分类号: | G10L25/90;G10L25/03;G10L25/54 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音调 序列 阶跃 规整 方法 | ||
一种音调序列的鲁棒阶跃规整方法,用于将不准确的音调值规整到更符合上下文的音调值上,在音调值的确定上有很好的效果。具体过程包括:首选对输入音频数字信号提取原始音调序列,然后反复截取长度固定的子音调序列,并映射到规整矩阵中,其次扩展该规整矩阵,构造相应的图结构,求解其中的路径以生成路径关联矩阵,最后通过分析路径关联矩阵找到符合上下文的音调值作为音调校准值。本发明对音调序列规整的目标结果符合实际情况,对声音音调值的提取也更加准确可靠;对音调序列规整的过程可控,通过自行设定相关参数可以让规整的过程更加灵活;在音调序列值分散较大的情况仍然会有很好的效果,具备很好的鲁棒性。
技术领域
本发明属于音频应用技术中音调提取与确定部分。具体内容是应用在提取原始音调序列之后的规整,用于准确提取音调的方法。
背景技术
声音是由物体振动产生的声波,也就是模拟信号,计算机要对声音进行处理,就要对声音的声波进行数字化,也就是转化为数字信号。
模拟信号是一定范围的电压信号或电流信号,模拟信号是指信息参数在给定范围内表现为连续的信号,或在一段连续的时间间隔内,其代表信息的特征量可以在任意瞬间呈现为任意数值的信号,因而计算机无法对模拟信号进行存储;但是根据香农定理可知,用离线的序列可以完全代表一个连续的函数,所以可以使用离散采样的方式获取声波的值序列,然后通过该值序列还原出模拟信号的波形;要保证采样后的序列可以完整的还原出原始的波形信息,需要根据奈奎斯特原则:在进行模拟信号转数字信号的过程中,只有当采样频率大于模拟信号最高频率的2倍时,采样之后的数字信号能较完整地保留原始信号中的信息。
后文所说的音频数据即表示采样之后的声波值。
人耳的听力范围是20~20kHz,所以在实际中采样的频率是44.1kHz,高于最高频率的2倍是为了提高声波量化的容差性。
声音波形的频率高低叫做音调,可以根据相关的公式由声音波形的频率求出音调值。
音频作为一种重要的用来传递信息数据,在实际生活中如何对这种大规模的数据进行有效的应用一直是一项重要的研究内容。在音频应用的相关技术中,音调是音频一项极为重要的特征属性,例如在音乐检索中,只有音调定准之后才能做好一些后续的操作,如音调序列字符化、提取音高曲线等;准确的音调序列可以提高基于内容的音频检索的准确率、可以使音频按照风格或者按照作曲人等信息的聚类更加可信。
当前的音频的音调序列提取主要是通过短时自相关函数、短时平均幅度差等方法来获取与原始音频波形周期一致的中间函数波形,然后再对中间函数波形进行基音周期提取;然而在提取的过程中由于实际音频的谐波组成多样以及噪声的干扰,因此会造成音调提取值的参差不齐,无法确定某一短时间内的准确音调值;
传统方法在提取音调序列之后用中值平滑算法、线性平滑算法或者动态规划平滑算法去除音调序列中的异常值,这些方法只对平稳序列中有个别的突变点时奏效;如果序列值存在连续的异常点,值进行平滑算法之后很有可能无法准确识别异常点,还可能会导致异常被放大,造成平滑后的序列仍然波动明显;本发明介绍的方法可以很好解决这一问题,提取到比较准确的音调值;
在音调值提取准确之后,可以在以下等方面进行应用:
1.在音乐检索中利用音乐音调值建立准确的索引并进行快速的搜索;
2.通过音乐文件生成对应的乐谱文件,给相关工作提供帮助;
3.通过比较网络中不同音乐的相似度来对音乐等文件进行版权保护;
4.在音乐软件中利用音乐聚类方法对用户进行音乐推荐,提供更好的用户体验;
5.提供更加灵活的音乐检索方式,例如通过人哼唱来进行基于内容的音乐检索。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610231868.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种三轮车专用防盗锁
- 下一篇:一种基于音频分析的乘务员呼唤应答检测方法