[发明专利]分布式视频垂直搜索方法及系统有效
申请号: | 201410222453.9 | 申请日: | 2014-05-23 |
公开(公告)号: | CN103984745B | 公开(公告)日: | 2018-02-16 |
发明(设计)人: | 何震宇;张高伟;陈明明;刘伟 | 申请(专利权)人: | 何震宇 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市科吉华烽知识产权事务所(普通合伙)44248 | 代理人: | 于标 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 视频 垂直 搜索 方法 系统 | ||
技术领域
本发明涉及视频搜索领域,尤其涉及分布式视频垂直搜索方法及系统。
背景技术
随着web2.0以及互联网的快速发展,互联网上面的资源量迅速的增长,呈现一种爆炸式的增长速度。如何从海量的、种类繁多的信息资源中找到自己需要的视频信息,给搜索引擎带来挑战,也是目前技术中的不足、以及要解决的问题。
发明内容
为了解决现有技术中的问题,本发明提供了一种分布式视频垂直搜索方法。
本发明提供了一种分布式视频垂直搜索方法,其特征在于,包括离线处理步骤和在线处理步骤;
离线处理步骤中包括:
A.视频采集步骤:获取视频数据资源;
B.视频存储步骤:将视频采集步骤中获取的视频数据资源存入数据库中;
C.视频信息的索引创建步骤:创建分布式索引;
在线处理步骤中包括:
用户交互步骤:提供搜索输入界面、以及返回展示界面;
视频检索步骤:根据搜索输入界面输入的搜索关键词进行视频检索,将检索到的视频数据通过返回展示界面进行显示。
作为本发明的进一步改进,
在所述视频采集步骤中,通过互联网视频开放平台提供的API获取视频资源,此过程运行在Hadoop集群之上,通过Map任务,访问视频开放平台服务器,获取视频JSON格式的数据并解析成自己定义的视频类的格式,循环获取直到Map任务结束;
在所述视频存储步骤中,视频存储过程运行于Hadoop集群和HBase集群之上,通过Reduce过程把视频采集步骤中获取的视频信息进行解析,再获取分布式数据库HBase的存储入口,将视频信息存入事先定义的视频库中,循环直到Reduce任务结束;
在视频信息的索引创建步骤中,视频信息的索引创建运行于HBase集群和ElasticSearch集群之上,首先获取HBase数据库中的视频信息,再通过封装ElasticSearch的索引创建接口来创建分布式索引分片和索引副本,索引存储于ElasticSearch集群之上,直到HBase视频库中视频数据创建完毕,此过程结束;
视频检索步骤运行于ElasticSearch集群之上。
作为本发明的进一步改进,在所述视频采集步骤中包括如下步骤:
A1.视频分片,设置分片个数;
A2.生成视频连接URL;
A3.根据生成的URL,访问开放平台的服务器,获取URL对应的视频数据,其格式为JSON类型;
A4.根据获取的JSON类型的视频数据,利用相应的JSON解析接口对JSON数据进行解析,并转化为自己定义的视频类;
在所述视频存储步骤中包括如下步骤:
B1.完成视频类的解析过程,把视频信息解析成对应的视频属性信息;
B2.接收视频属性信息,并调用分布式数据库HBase的写入接口把相应的视频信息存入的数据库中。
作为本发明的进一步改进,在所述视频信息的索引创建步骤中包括如下步骤:
C1.连接HBase分布式数据库,获取视频信息;
C2.将获取的视频信息打包成JSON类型的数据;
C3.获得JSON类型的视频信息,经过一个hash过程把相应的视频分配到对应的索引分片当中建立索引,索引完成后进行副本的创建;
C4.判断数据库中视频数据是否完成,如是,则结束;否则跳到步骤C1继续执行。
作为本发明的进一步改进,在所述在线处理步骤中包括如下步骤:
第一步:用户通过用户查询接口方便的输入查询关键词,提交给检索服务器;
第二步:检索服务器负责把用户提交的查询关键词分发给各个节点服务器;
第三步:各个节点服务器接收到检索服务器发送过来的检索请求后,自动检索本节点上索引分片,完成并行搜索的过程,并把结果返回;
第四步:检索服务器接收各个节点服务器返回的视频数据,并把其视频数据进行融合,以供返回给用户;
第五步:将检索服务器返回的视频数据显示给用户。
本发明还提供了一种分布式视频垂直搜索系统,包括离线处理单元和在线处理单元;
离线处理单元中包括:
视频采集模块:用于获取视频数据资源;
视频存储模块:用于将视频采集模块中获取的视频数据资源存入数据库中;
视频信息的索引创建模块:用于创建分布式索引;
在线处理单元中包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于何震宇,未经何震宇许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410222453.9/2.html,转载请声明来源钻瓜专利网。