[发明专利]自动进行音频内容分析的系统和方法有效
申请号: | 99127080.0 | 申请日: | 1999-12-28 |
公开(公告)号: | CN1261181A | 公开(公告)日: | 2000-07-26 |
发明(设计)人: | 德拉古丁·皮特科维奇;杜尔斯·比特里斯·庞塞龙;萨维萨·斯里尼瓦桑 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 | 代理人: | 杨国旭 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自动 进行 音频 内容 分析 系统 方法 | ||
本发明一般涉及包括从视频中提取出来的音频流的音频流,更特别地,涉及用于对音频流进行分类和做索引,以支持随后对音频流所进行的检索,找要旨,总结,浏览,和一般搜寻的系统和方法。
伴随着计算机普通应用的快速增长,特别是多媒体计算机应用的快速增长,从例如音频-视频应用中继续制造出大量音频,并且然后将音频使用电子的形式来保存。如本发明所认识到的,当音频文件的数量增加时,快速使用被保存的音频流和有效地仅使用已存在的音频文件目录或者其它已经存在的访问装置就变得更困难了。例如,访问从视频获得的一个音频流,基于一个用户的查询来检索信息,或者提供音频流的一个概述,或者使一个用户浏览或者找一个音频流的要旨是很理想的方式。所以,本发明认识到需要有效地搜寻特定音频流的不断增长的需求,这个特定的音频流是一个用户所希望访问的,但是它被与其它成千的音频流一起保存。
传统的信息检索技术是基于这样一个假设:源文本,是从音频推导出的或者不是,是没有噪声和错误的。但是,当从音频推导出一个源文本时,上述假设就有问题了。这是因为语音识别引擎被用于将一个音频流转换为一个计算机保存的文本,并且因为这个任务本身是不精确的,并且本质上是困难的,所以这种转换实际上是不可能没有错误并且不可能不对文本引入噪声。例如,在一个音频流中的特定词可能不会被正确识别(例如,说“land”将被翻译成“lamb”)或者根本不能识别,由此消除了查全率能力和一个信息检索系统的查准率。“查准率”意味着一个系统仅检索“正确”文档的能力,而“查全率”指一个系统检索尽可能多的正确文档的能力。理想的是,我们已经认识到,有可能解决语音识别引擎在将音频流转换为文本时的限制,并且因为解决这些限制,有可能改善一个信息检索系统的查准率和查全率。
除了上述考虑,本发明认识到在许多情形下,一个用户可能希望调用一个数字保存音频流来听,但是这个用户可能不希望听或者访问整个音频流的信息,而仅希望听或者访问某一个特定部分的音频流信息。实际上,一个用户仅希望听一个音频流或者多个音频流的概要,或者仅希望理解一个音频流的要旨。例如,一个用户仅希望听音频流中与特定题目相关的部分,或者音频流中某个特定人所讲的部分,或者在记录程序的情形下,一个用户希望仅听这个程序中非商业部分。类似地,一个用户可能希望“快速地听”音频。例如,一个用户可能希望快速地听完一个音频流中“不太感兴趣”的部分(例如商业部分),而以一个可理解的速度来听“感兴趣”的部分。
但是,过去所做的音频内容分析努力,例如日本专利公开8063184和10049189和欧洲专利公开702351中所公开的那些,已经基本上不是集中在上述考虑上,而是简单地集中在改善语音识别计算机输入装置的准确性上,或者集中在改善数字处理语音的质量上。而对他们所作努力有效的是,这些过去所做到努力没有考虑基于流中音频事件的索引,由此也没有访问音频的索引,来支持随后对计算机保存的音频流所进行的搜寻,找要旨,和概述。
美国专利5,199,077公开了用于语音编辑和索引的词识别。这个方法用于单个说话者音频或者视频记录的关键字索引。上述日本专利公开8063184和10049189指作为改善语音识别准确性的音频内容分析。另外,日本专利公开8087291A使用了改善语音识别系统速度的音频分析。上述欧洲专利公开EP702351A包括了识别和记录音频事件,以帮助识别不知道的短语和语音。美国专利5,655,058描述了基于说话者的身份来对音频数据进行分段的一个方法,而欧洲专利公开EP780777A描述了语音识别系统处理一个音频文件,来提取所说的词来检索音频。
这些系统中所公开的方法的目的是用于改善用于识别的准确性和性能。所公开的索引和检索系统是基于说话者身份的,或者是音频带上语音识别的直接应用,和使用词作为搜寻词。
相反,本发明的目的是检索,分类和概述真实世界的、如这里所理解的、很少包括单个说话者,仅包括单个语音段的清晰音频的音频。认识到这些考虑,本发明使用下面完全提出的系统和方法,改善了前述词识别技术,其中音乐和噪声被从语音段中分段,语音识别被应用到清晰语音段,建立了一个考虑了音频分析结果的先进检索系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/99127080.0/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法