[发明专利]用于对视频进行分类的方法和系统有效

申请号：	200680034868.7	申请日：	2006-12-27
公开（公告）号：	CN101268505A	公开（公告）日：	2008-09-17
发明（设计）人：	赖古纳唐·拉达克里希南;迈克尔·西拉库萨;阿贾伊·迪瓦卡兰;大塚功	申请（专利权）人：	三菱电机株式会社
主分类号：	G10L15/00	分类号：	G10L15/00;G10L15/10;G10L15/06;G06F17/30;H04N5/91
代理公司：	北京三友知识产权代理有限公司	代理人：	李辉
地址：	日本***	国省代码：	日本;JP
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于视频进行分类方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明总体上涉及对视频片段进行分类，更具体地说，涉及根据音频信号对视频片段进行分类。

背景技术

对有字幕或无字幕的视频内容进行分段是视频检索应用和浏览应用的关键任务。视频可通过标识精彩场面来分段。精彩场面是视频中任何包含关键或重要事件的部分。因为精彩场面记录了视频的精华，所以精彩场面的片段可提供视频的良好摘要。例如在体育活动的视频中，摘要包括得分事件和精彩比赛。

图1示出了一种典型的现有技术的音频分类方法100，参见ZiyouXiong，Regunathan Radhakrishnan，Ajay Divakaran and Thomas S.Huang，″Effective and Efficient Sports Highlights Extraction Using the MinimumDescription Length Criterion in Selecting GMM Structures，″Intl.Conf.onMultimedia and Expo，June 2004，以及Radhakrishnan等人在2004年8月20日提交的美国专利申请10/922,781“Feature Identification of Events inMultimedia”，两者的内容通过引用的方式被并入于此。

音频信号101是输入。从音频信号101的帧102中提取特征111(110)。特征111可以是修正离散余弦变换(MDCT)的形式。

此外如图2所示，特征111被通用多路分类器200分类为标签121。通用多路分类器200具有经训练的音频类别的一般集合210，所述经训练的音频类别例如掌声、欢呼、音乐、正常的言语、以及激动的言语。每个音频类别都由高斯混合模型(GMM)进行建模。GMM的参数根据从训练数据211中提取的特征确定。

通过确定特征111的GMM与每个分类的GMM之间的似然性(likelihood)并比较该似然性(220)，对帧102的特征111的GMM进行分类。具有最大似然性的分类被选作特征的帧的标签121。

在通用分类器200中，每个分类被单独训练。每个模型的高斯混合成分的数量m基于最小描述长度(MDL)标准。当训练生成模型时，通常使用MDL标准。用于输入训练数据211的MDL标准可具有以下形式：

MDL(m)＝-logp(data|Θ，m)-logp(Θ|m) (1)

其中，m指示具有参数Θ的具体模型的混合成分的编号，而p是似然性或可能性。

等式(1)的第一项是m混合成分模型的训练数据的对数似然性(loglikelihood)。其可被认为是关于该m混合模型的数据的平均代码长度。第二项可被解释为模型参数Θ的平均代码长度。利用这两项，MDL标准将对最可能描述所述训练数据的具体模型的识别与描述所述模型需要的参数数量进行平衡。

在一定数值范围(例如从1到40之间的范围)上搜索k。对于每个k值，利用将数据似然性项最大化的期望最大化(EM)优化处理来确定Θ^k的值，从而相应地计算MDL得分。具有最小期望得分的k值被选出。利用MDL训练分类210的GMM伴随着以下的隐含假设，即分别为每个音频类别选择优良的产生GMM产生了更好的总体分类效果。

重要度131的判定(130)取决于任务140或应用。例如，重要度与具体摘要任务中被标记为重要的帧所占的百分量相对应。在体育精彩场面(highlighting)任务中，重要类别可以是激动的言语或欢呼。在音乐会精彩场面任务中，重要类别可以是音乐。通过对重要度设定阈值，可对视频内容获得不同的片段和摘要。

通过选择合适的类别集合210和匹配的通用多路分类器200，只有重要度131的判定(130)需要取决于任务140。由此，不同的任务可关联到所述分类器。这样通过单独的分类器简化了工作执行。

发明内容

本发明的实施方式提供了将无字幕视频的音频信号分类为标签的方法。所述标签可随后被用于检测所述视频中的精彩场面，并用于构造仅包括所述精彩场面片段的摘要(summary)视频。

分类器适用高斯混合模型(GMM)以检测代表重要音频类别的音频帧。根据取决于具体任务的单一音频类别或多个音频类别的混合体出现的次数来提取精彩场面。

例如，体育赛事视频的精彩场面任务依赖于评论员激动的言语以及观众的欢呼的出现，而对音乐会精彩场面的提取将依靠音乐的出现。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于三菱电机株式会社，未经三菱电机株式会社许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200680034868.7/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]用于对视频进行分类的方法和系统有效

专利文献下载