[发明专利]用于对视频进行分类的方法和系统有效

申请号：	200680034868.7	申请日：	2006-12-27
公开（公告）号：	CN101268505A	公开（公告）日：	2008-09-17
发明（设计）人：	赖古纳唐·拉达克里希南;迈克尔·西拉库萨;阿贾伊·迪瓦卡兰;大塚功	申请（专利权）人：	三菱电机株式会社
主分类号：	G10L15/00	分类号：	G10L15/00;G10L15/10;G10L15/06;G06F17/30;H04N5/91
代理公司：	北京三友知识产权代理有限公司	代理人：	李辉
地址：	日本***	国省代码：	日本;JP
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于视频进行分类方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种对视频进行分类的方法，该方法包括以下步骤：

定义用于对视频的音频信号进行分类的类别的集合；

将所述集合中的选定的类别合并为重要类别子集，该重要类别子集对于具体精彩场面任务是至关重要的；

将所述集合的剩余类别合并为其他类别子集；

利用训练用音频数据对所述重要类别子集和所述其他类别子进行联合地训练以形成任务特有的分类器；

在存储器中保持至少2种以上的多个所述集合；

所述多个集合是关于为了提取与节目类型对应的精彩场面场景而进行了训练的，由按集合而不同的重要类别和其他类别构成，

根据所述视频的所述节目类型选择相应的集合；并且

利用所述任务特有的分类器将音频信号分类为重要音频信号或其他音频信号以在对应于所述具体的精彩场面任务的视频中识别精彩场面，

所述任务特有的分类器由任务特有的二进制分类器构成，所述音频信号按其特征进行分类，该特征通过任务特有的所述二进制分类器分配标签来进行分类。

2.如权利要求1所述的方法，其特征在于，所述视频的节目类型基于从电子节目手册(EPG)获得的信息。

3.如权利要求1所述的方法，该方法还包括以下步骤：

根据已分类的音频信号将所述视频分段为重要片段和其他片段；并且

将所述重要片段合并为所述视频的摘要。

4.如权利要求1所述的方法，该方法还包括以下步骤：

将所述音频信号分割为帧；

从每个帧中提取音频特征；

根据所述音频特征将每个帧分类为重要帧或其他帧。

5.如权利要求4所述的方法，其中所述音频特征是修正离散余弦变换。

6.如权利要求1所述的方法，其中所述视频是关于体育活动的，且所述具体精彩场面任务是识别所述视频中的精彩场面，而且所述类别的集合包括激动的言语和欢呼的混合体类别、掌声类别、欢呼类别、正常言语类别以及音乐类别，且所述重要类别子集包括所述激动的言语和欢呼的混合体，而所述其他类别子集包括掌声、欢呼、正常言语以及音乐。

7.如权利要求1所述的方法，该方法还包括以下步骤：

用第一高斯混合模型表示所述重要类别子集；并且

用第二高斯混合模型表示所述其他类别子集。

8.如权利要求1所述的方法，其中所述训练联合地利用K折交叉验证。

9.如权利要求1所述的方法，其中所述训练联合地对分类的估计进行优化。

10.如权利要求1所述的方法，其中分类步骤分配标签，并且该方法还包括以下步骤：

根据所述具体精彩场面任务确定所述标签的重要度。

11.如权利要求7所述的方法，其中所述类别子集的数量C是2，而且所述训练用音频数据的向量x中有N_train个样品，每个样品x_i具有从1到C取值的相关类别标签y_i，所述任务特有的分类器具有以下形式：

f(x;m)=argmaxyip(x|yi,myi,Θyi),]]>