[发明专利]多元化的视频检索方法在审
申请号: | 201610630331.2 | 申请日: | 2016-08-04 |
公开(公告)号: | CN107688571A | 公开(公告)日: | 2018-02-13 |
发明(设计)人: | 刘春根;韩欣;应业敏;谢赟 | 申请(专利权)人: | 上海德拓信息技术股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海天协和诚知识产权代理事务所31216 | 代理人: | 沈国良 |
地址: | 200233 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多元化 视频 检索 方法 | ||
技术领域
本发明涉及一种多元化的视频检索方法。
背景技术
随着计算机网络的发展,以及多媒体技术的推广应用,各种多媒体数据源源不断的产生,其中以视频居多。而视频是一种数据量大,信息不定长且结构复杂的一种数据,其不像文字或者数字一样一目了然,并很难用一些文字或者数字去描述,如图片中的颜色、形状和纹理,视频中的运动形态,音频中的音调等。当欲采用这些比较抽象的特征去对视频进行检索时,必须要人为的将这些特征信息转化为易于被人们理解的文字或者数字,而这种转换无疑是一件既耗时又耗力的事情。于是,业界纷纷提出了各自的视频检索解决方法。
基于内容的视频检索技术是目前比较主流的视频检索方法,它通过从视频中取出部分关键帧,并获取其颜色、纹理等特征值,然后根据获取的特征值来对视频进行对比并得到相似度,最后将相似度最高的视频检索出来。这些方法虽然能在一定程度上对视频进行检索,但是还有些不足之处:(1)检索形式单一,几乎千篇一律的通过上传图片或者视频的方式提供检索样本,然后根据样本的颜色、形状特征信息进行检索;(2)效率低,资源消耗大,由于检索视频的过程中,要对视频进行相似度计算,而视频一般都是比较大的数据量,这样便导致对一个视频进行相似度计算会非常慢而且很耗资源;(3)以文字查询时,不便于组织关键词,通常视频检索时,更多的是依据人类的高级语义特征进行组词,如奥运会,世界杯等特征词,基本不会采用红色、矩形这些颜色、纹理特征词来对视频进行检索,而且用这些颜色、纹理特征词检索出来的视频恐怕也找不到想要的结果;(4)检索方式与惯用的查询方式差别较大,目前视频检索方式多是客户提供一个视频段或者一张视频截图作为样本,然后根据颜色、纹理特征的相似度比较,返回与待查询样本相似度最高的视频,如此,便面临着两个问题,一是习惯用文字来进行检索,二是待查询视频镜头或视频帧从哪里获取;(5)检索出来的结果显示简单,几乎不能根据检索策略来筛选检索出来的结果。
基于语音提取的视频检索技术是目前兴起的另一个视频检索方法,它通过将音频从视频中提取出来,再用语音识别技术将提取出来的音频转换成文字,利用转换出来的文字对视频进行检索。这种视频检索方法解决了基于内容的视频检索方法中的效率低、资源消耗大以及不能通过文字对视频进行检索的缺点,但该检索方法导致了新的问题:(1)语音识别的适用范围比较窄,语音识别技术虽然能将音频转换成文本,但是,如果待识别的音频质量不好的话,会导致语音识别的准确率非常低,甚至识别不出来,如音频的背景音乐太大、音频有回音、音频音量太低或是音频的编码不被支持等;(2)检索准确率比较低,由于语音识别的适用范围比较窄,当入库的视频包含的音频质量比较差时,会导致视频信息基本没有建立索引,或者所建立的索引正确率极低,进而导致检索结果错误;(3)单纯的以文字记录,不利于检索的精确度,视频一般都具有较大的时长,如一般的新闻报道,如果每秒说2个字,10分钟就是1200个字,一个小时更是达到7200个字,在这么大的基数下,也一定程度提高了其在视频中覆盖面的广度,这会导致在输入检索条件后,输出一大堆不相关的结果。
发明内容
本发明所要解决的技术问题是提供一种多元化的视频检索方法,本方法集内容比较、音频解析、字幕提取和人脸识别技术为一体的多元化视频检索手段,克服了传统视频检索方式的缺陷,降低了资源消耗,有效提高了检索效率及准确性。
为解决上述技术问题,本发明多元化的视频检索方法包括如下步骤:
步骤一、选择检索方式,分别以文字检索、图片检索、音频检索和视频检索方式对视频进行检索;
步骤二、根据不同的检索方式做相应处理,获取检索信息,
a.文字检索方式:直接以文字信息进行视频检索;
b.图片检索方式:首先判断待检索图片样本是否需要做优化处理,如果需要,则对待检索的图片样本进行优化处理,然后获取待检索图片样本的颜色、纹理及形状的特征值信息,如待检索图片样本有人脸,则同时检测人脸并获取相关人脸信息;
c.音频检索方式:首先判断待检索音频样本是否需要优化处理,如果需要,则对待检索音频样本进行优化处理,然后采用音频解析技术将待检索音频样本转换成文字信息,并以特定格式进行保存;
d.视频检索方式:首先分别提取待检索视频样本中的字幕流和视频流,若存在字幕流,则将字幕流转换成文字信息,并以特定格式保存,否则获取音频流,并按照音频检索方式对音频流进行处理,同时提取出视频流中的参考帧序列集,参考帧按照图片检索方式进行处理;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海德拓信息技术股份有限公司,未经上海德拓信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610630331.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种网页信息处理方法和系统
- 下一篇:一种页面显示方法及终端