[发明专利]多媒体文件的识别方法、装置在审
申请号: | 201410849018.9 | 申请日: | 2014-12-29 |
公开(公告)号: | CN104598541A | 公开(公告)日: | 2015-05-06 |
发明(设计)人: | 王晓萌;谭傅伦;许泽军;王英杰;袁斌 | 申请(专利权)人: | 乐视网信息技术(北京)股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京恒都律师事务所 11395 | 代理人: | 李向东 |
地址: | 100089 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多媒体 文件 识别 方法 装置 | ||
技术领域
本发明涉及多媒体文件识别技术领域,具体而言,特别涉及一种多媒体文件识别的方法、装置。
背景技术
当前的视频搜索方式,通常使用的是视频的“关键字”搜索。这不但要求用户知晓该视频的相关信息,同时也要求搜索服务提供方能及时维护与视频一一对应的“关键字”数据库。而实际上,我们常常会遭遇到这样的尴尬:在大街小巷或者电视机前邂逅一段有趣的视频,但我们并不熟悉甚至不知道这段视频的信息,更别说通过“关键字”搜索到这段视频了。
因而,基于声音识别视频便在这一实际需求的推动之下应运而生,它实现了由视频的声音识别视频本身。在基于声音识别视频的技术中,主要包括以下两种:基于音频水印的视频识别技术和基于音频指纹的视频识别技术。
其中,在基于音频水印的视频识别技术中,常用的是基于声印码的视频识别技术,其原理在于:利用人耳对高频声音不敏感的特点,通过在音频数据的高频段中加入携带特定信息的声印码,识别终端在获取到这种携带了声印码的声音文件后,能从中提取它携带的声印码,将提取的声印码与数据库中的声印码样本匹配,从而实现了通过声音识别视频。其优点是识别速度快,一般为毫秒级。
但是,该技术在区分视频时,仅依靠声印码数据来区分,因而无法区分添加相同声印码数据的视频,例如,当属于同一剧集的多集电视剧添加的声印码数据相同时,无法区分各集电视剧,从而在识别某集电视剧时,只能识别到该集电视剧属于某一剧集,而不能识别到该集电视剧具体为该剧集中的哪一集;当某电影添加的声印码数据相同时,无法区分该电影中的电影片段,从而在识别该电影中某一个片段时,只能识别到该电影片段属于某一电影,而不能识别到该电影片段具体为该电影中的哪一个片段,因此,这种基于声印码的视频识别技术的识别范围有限,识别细度低。
针对现有技术中视频识别细度低的问题,目前尚未提出有效的解决方法。
发明内容
本发明的主要目的在于提供一种多媒体文件识别的方法、装置,以解决现有技术中视频识别细度低的问题。
依据本发明的一个方面,提供了一种多媒体文件的识别方法。
根据本发明的多媒体文件的识别方法包括:获取目标多媒体对应的混合音频数据,其中,混合音频数据包括目标多媒体文件的音频数据和音频水印数据;提取混合音频数据中的音频水印数据;匹配音频水印数据与预设的音频水印样本,以得到第一匹配结果;在预设的特征样本中确定第一匹配结果对应的特征样本部分;提取混合音频数据中的目标多媒体文件的音频数据的特征信息;匹配特征信息与特征样本部分,以得到第二匹配结果;根据第二匹配结果识别目标多媒体文件。
进一步地,混合音频数据还包括用户语音数据,该方法还包括:提取混合音频数据中的用户语音数据;匹配用户语音数据与预设的语音样本,以得到第三匹配结果;以及根据所述第三匹配结果从所述根据第二匹配结果识别得到的目标多媒体文件中选择一所述目标多媒体文件。
进一步地,提取混合音频数据中的音频水印数据包括:提取混合音频数据中的高频部分的音频数据;提取混合音频数据中的目标多媒体文件的音频数据的特征信息包括:提取混合音频数据中的低频部分的音频数据的特征信息;提取混合音频数据中的用户语音数据包括:提取混合音频数据中的低频部分的音频数据;去除低频部分的音频数据中的目标多媒体文件的音频数据,以得到用户语音数据。
进一步地,提取混合音频数据中的目标多媒体文件的音频数据的特征信息包括:提取混合音频数据中的低频部分的左声道数据和右声道数据;采用以下公式合并左声道数据和右声道数据,以得到低频部分的立体声数据:s=a*l+b*r,其中,a+b=1,s为低频部分的立体声数据,l为低频部分的左声道数据,r为低频部分的右声道数据,a和b为预设的参数;以及提取立体声数据的时频特征数据得到目标多媒体文件的指纹信息,其中,指纹信息构成目标多媒体文件的音频数据的特征信息。
进一步地,若目标多媒体文件为第二多媒体文件的一个子多媒体文件,第一匹配结果为第二多媒体文件的标识信息,第二匹配结果为目标多媒体文件的标识信息,特征样本为预设的特征数据库中存储的至少一条多媒体记录,多媒体记录包括多媒体文件的指纹信息、与指纹信息对应的多媒体文件的标识信息,则:在预设的特征样本中确定第一匹配结果对应的特征样本部分包括:在特征数据库中,定位到第二多媒体文件的标识信息对应的一条或多条多媒体记录;匹配特征信息与特征样本部分,以得到第二匹配结果包括:匹配目标多媒体的指纹信息与定位到的一条或多条多媒体记录,以确定目标多媒体的标识信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于乐视网信息技术(北京)股份有限公司;,未经乐视网信息技术(北京)股份有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410849018.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:搜索方法及装置
- 下一篇:定时数据迁移装置及其使用方法