[发明专利]一种可公开的通用视频抓取方法有效

专利信息
申请号: 202110769744.X 申请日: 2021-07-07
公开(公告)号: CN113485607B 公开(公告)日: 2022-02-15
发明(设计)人: 宋玉彬;战科宇;张建民;李重辉 申请(专利权)人: 中国搜索信息科技股份有限公司
主分类号: G06F3/0482 分类号: G06F3/0482;G06F16/951;G06F16/9535;H04L67/02
代理公司: 北京市盛峰律师事务所 11337 代理人: 于国强
地址: 100077 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 公开 通用 视频 抓取 方法
【权利要求书】:

1.一种可公开的通用视频抓取方法,其特征在于:包括如下步骤,

S1、安装并运行支持H.264解码的chromium浏览器;启用chromium浏览器的开发模式,安装视频抓取插件;

S2、启动数据库和消息中间件服务,初始化本地用户配置目录池状态;

S3、启动视频抓取调度服务和接口层服务;

S4、从客户端发起基于HTTP协议的视频数据抓取请求到接口层;

S5、接口层将视频数据抓取请求转发至视频抓取调度服务,视频抓取调度服务启动chromium浏览器进程,加载视频抓取插件,打开视频片段页面的地址;视频抓取插件从视频片段页面注入和执行Javascript代码,完成自动点击播放视频片段;视频片段开始播放后,视频抓取插件通过截获HTTP网络应答数据头部的字段值获取视频片段的播放地址、类型、大小和标题信息,并将视频片段的信息反馈给视频抓取调度服务;视频抓取调度服务根据视频片段的信息过滤并合并相应的视频片段生成视频数据,将视频数据持久化到数据库并通过接口层反馈至客户端,完成对视频数据的抓取;

将视频抓取插件的代码和浏览器的环境配置打包成用户配置模板数据,在视频抓取调度服务启动时,将用户配置模板数据拷贝出若干份用户配置数据,并在消息中间件服务中保存使用状态记录,用于解决多并发请求情况下每个视频数据抓取请求能独立运行,互不影响;

步骤S5具体包括如下内容,

S51、接口层将视频数据抓取请求转发至视频抓取调度服务;

S52、视频抓取调度服务启动chromium浏览器进程,指定包含相关视频抓取插件的临时用户数据目录,加载相应视频抓取插件,打开视频片段页面的地址;

S53、在视频片段页面开始加载时注入Javascript代码,设置该视频片段的请求上下文信息;在视频片段页面开始加载后触发自动播放,自动点击播放按钮或者查找Video标签对象,利用autoplay方法来播放视频片段;

S54、视频片段页面加载完成后,由注入视频片段页面的Javascript代码触发消息,通知视频抓取插件的内容页Javascript脚本,获得该视频片段的请求上下文信息,视频抓取插件的内容页Javascript脚本通知视频抓取插件的背景页Javascript脚本,保存该视频片段的请求上下文信息;

S55、基于该视频片段的请求上下文信息,视频抓取插件的背景页Javascript脚本从HTTP网络应答数据头部中解析和嗅探该视频片段的类型、大小和标题信息;

S56、视频抓取插件向视频抓取调度服务发送HTTP的POST请求,视频抓取调度服务根据视频片段的信息对相应的视频片段进行过滤和合并生成视频数据,将视频数据持久化到数据库并返回至接口层;

S57、接口层将视频数据返回至客户端,完成对该视频数据的抓取。

2.根据权利要求1所述的可公开的通用视频抓取方法,其特征在于:所述视频片段的请求上下文信息即为相应视频片段的抓取任务ID。

3.根据权利要求1所述的可公开的通用视频抓取方法,其特征在于:利用HTTP网络应答数据头部content-type字段值与预先配置的音频视频分类进行匹配,判断该视频片段是音频还是视频,若该视频片段是音频,则过滤掉并进行下一视频片段的类型判断;若该视频片段是视频,则获取该视频片段的地址、类型、大小和标题。

4.根据权利要求1所述的可公开的通用视频抓取方法,其特征在于:视频抓取调度服务根据视频片段的信息对相应的视频片段进行过滤和合并生成视频数据的具体过程为,

根据预先配置的过滤规则匹配和筛选视频片段中广告格式的视频片段,将广告格式的视频片段剔除,保留正片格式的视频片段;将所有正片格式的视频片段通过ffmpeg库进行合并转码,生成视频数据。

5.根据权利要求1所述的可公开的通用视频抓取方法,其特征在于:预先配置的过滤规则为包含有网站域名、广告视频格式、内容识别格式和广告等待市场的字典信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国搜索信息科技股份有限公司,未经中国搜索信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110769744.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top