[发明专利]一种音频分析及检索方法和系统在审
申请号: | 201610402787.3 | 申请日: | 2016-06-08 |
公开(公告)号: | CN107480152A | 公开(公告)日: | 2017-12-15 |
发明(设计)人: | 鲍东山;李晓洁 | 申请(专利权)人: | 北京新岸线网络技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100084 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音频 分析 检索 方法 系统 | ||
技术领域
本发明提供音频处理及检索技术领域。更具体地,提供一种音频分析及检索方法和系统,从音频片段中确定特定内容的位置信息。
背景技术
不同类型的音频将具有不同的内在内容。从整体看,音频内容分为三个级别:最低层的物理样本级、中间层的声学特征级和最高层的语义级。从低级到高级,其内容逐级抽象,内容的表示逐级概括。
在物理样本级,音频内容呈现的是流媒体形式,用户可以通过时间刻度,检索或调用音频的样本数据。如现在常见的音频录放程序接口。
声学特征级,声学特征是从音频数据中自动抽取的。一些听觉特征表达用户对音频的感知,可以直接用于检索;一些特征用于语音的识别或检测,支持更高层的内容表示。另外还有音频的时空结构。
语义级,是音频内容、音频对象的概念级描述。具体来说,在这个级别上,音频的内容是语音识别、检测、辨别的结果,音乐旋律和叙事的说明,以及音频对象和概念的描述。
随着信息技术的发展,近年来越来越多的包括音频、视频和图片的多媒体信息以数字方式储存。为使这些信息能被有效地应用,使人们能够快速、准确地找到所需要的信息,有必要建立一套有效的检索系统。
基于人工输入的属性和描述来进行音频检索是业界首先想到的方法。该方法的主要缺点是:当数据量越来越多时,人工的注释强度加大;人对音频的感知,如音乐的旋律、音调、音质等,难以用文字注释表达清楚。这些正是基于内容的音频检索需要研究和解决的问题。
音频检索是指从音频资源中找出满足用户需求的特定音频的过程。目前,对于音频的检索大多是基于人工输入的属性和描述来进行的,但是随着音频资源的丰富以及人们对音频搜索需求的增长,这种方式搭建的检索系统已经不能很好地完成所需的任务。因此,需要研究基于内容的音频检索,其基本思想是通过分析音频中的音频特征和上下文联系来进行检索。
发明内容
有鉴于此,本发明的一个目的是提供一种音频分析及检索方法,该方法包括:
依据一定解码规则从外部音频源获取音频流;
对从音频流采集单元获取的音频流进行分段,使得分段后的每个部分具有单一的声学特征;
对从音频流分割单元输出的具有单一声学特征的音频流进行分析,得到其确定的声学特征;
对音频流识别单元判别出的声学特征为语音的音频流进行识别得到拼音图;
对语音流分析模块得到的拼音图进行检索,对感兴趣的关键词,得到该关键词在音频流中的位置。
本发明还提供一种音频分析及检索系统,用以通过对音频信号内容的分析,该系统包括:
音频流采集单元,用于依据一定解码规则从外部音频源获取音频流;
音频流分割单元,用于对从音频流采集单元获取的音频流进行分段,使得分段后的每个部分具有单一的声学特征;
音频流识别单元,用于对从音频流分割单元输出的具有单一声学特征的音频流进行分析,得到其确定的声学特征;
语音流分析单元,用于对音频流识别单元判别出的声学特征为语音的音频流进行识别得到拼音图;
检索单元,用于对语音流分析模块得到的拼音图进行检索,对感兴趣的关键词,得到该关键词在音频流中的位置。
综上所述,本发明通过对音频数据流进行分割、分析处理,提取各部分的声学特征,得到拼音图,从而可基于这些拼音图对音频数据流进行检索。可快速准确地从音频源中查找到所需音频数据。
为了上述以及相关的目的,一个或多个实施例包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明某些示例性方面,并且其指示的仅仅是各个实施例的原则可以利用的各种方式中的一些方式。其它的益处和新颖性特征将随着下面的详细说明结合附图考虑而变得明显,所公开的实施例是要包括所有这些方面以及它们的等同。
说明书附图
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例提供的音频分析及检索方法流程图;
图2为本发明实施例提供的音频分析及检索系统构成示意图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京新岸线网络技术有限公司,未经北京新岸线网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610402787.3/2.html,转载请声明来源钻瓜专利网。