[发明专利]一种可公开的通用视频抓取方法有效
申请号: | 202110769744.X | 申请日: | 2021-07-07 |
公开(公告)号: | CN113485607B | 公开(公告)日: | 2022-02-15 |
发明(设计)人: | 宋玉彬;战科宇;张建民;李重辉 | 申请(专利权)人: | 中国搜索信息科技股份有限公司 |
主分类号: | G06F3/0482 | 分类号: | G06F3/0482;G06F16/951;G06F16/9535;H04L67/02 |
代理公司: | 北京市盛峰律师事务所 11337 | 代理人: | 于国强 |
地址: | 100077 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 公开 通用 视频 抓取 方法 | ||
本发明公开了一种可公开的通用视频抓取方法,包括S1、安装并运行支持H.264解码的chromi um浏览器;启用chromi um浏览器的开发模式,安装视频抓取插件;S2、启动数据库和消息中间件服务,初始化本地用户配置目录池状态;S3、启动视频抓取调度服务和接口层服务;S4、从客户端发起基于HTTP协议的视频数据抓取请求到接口层;S5、接口层将视频数据抓取请求转发至视频抓取调度服务,视频抓取调度服务启动chromi um浏览器进程,加载视频抓取插件,打开视频片段页面的地址;视频抓取插件从视频片段页面注入和执行Javascr i pt代码,完成自动点击播放视频片段等内容。优点是:能够抓取各类主流媒体格式的视频数据,并能够根据过滤规则剔除广告,合并转码流媒体视频,降低视频抓取难度。
技术领域
本发明涉及爬虫抓取技术领域,尤其涉及一种可公开的通用视频抓取方法。
背景技术
随着互联网技术日益进步,短视频、小视频等新颖媒体形式的普及,带动了信息传播力和影响力,各种视频类数据将是新闻融媒产品的重要组成部分。传统视频数据抓取是建立在网页源码抓取和解析上,对于Html5流媒体等新技术来说显得捉襟见肘,同时各类网站和App的数据抓取和解析的工作量也非常巨大,需要一种新的视频抓取方法来解决这个难题。
发明内容
本发明的目的在于提供一种可公开的通用视频抓取方法,从而解决现有技术中存在的前述问题。
为了实现上述目的,本发明采用的技术方案如下:
一种可公开的通用视频抓取方法,包括如下步骤,
S1、安装并运行支持H.264解码的chromium浏览器;启用chromium浏览器的开发模式,安装视频抓取插件;
S2、启动数据库和消息中间件服务,初始化本地用户配置目录池状态;
S3、启动视频抓取调度服务和接口层服务;
S4、从客户端发起基于HTTP协议的视频数据抓取请求到接口层;
S5、接口层将视频数据抓取请求转发至视频抓取调度服务,视频抓取调度服务启动chromium浏览器进程,加载视频抓取插件,打开视频片段页面的地址;视频抓取插件从视频片段页面注入和执行Javascript代码,完成自动点击播放视频片段;视频片段开始播放后,视频抓取插件通过截获HTTP网络应答数据头部的字段值获取视频片段的播放地址、类型、大小和标题信息,并将视频片段的信息反馈给视频抓取调度服务;视频抓取调度服务根据视频片段的信息过滤并合并相应的视频片段生成视频数据,将视频数据持久化到数据库并通过接口层反馈至客户端,完成对视频数据的抓取。
优选的,将视频抓取插件的代码和浏览器的环境配置打包成用户配置模板数据,在视频抓取调度服务启动时,将用户配置模板数据拷贝出若干份用户配置数据,并在消息中间件服务中保存使用状态记录,用于解决多并发请求情况下每个视频数据抓取请求能独立运行,互不影响。
优选的,步骤S5具体包括如下内容,
S51、接口层将视频数据抓取请求转发至视频抓取调度服务;
S52、视频抓取调度服务启动chromium浏览器进程,指定包含相关视频抓取插件的临时用户数据目录,加载相应视频抓取插件,打开视频片段页面的地址;
S53、在视频片段页面开始加载时注入Javascript代码,设置该视频片段的请求上下文信息;在视频片段页面开始加载后触发自动播放,自动点击播放按钮或者查找Video标签对象,利用autoplay方法来播放视频片段;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国搜索信息科技股份有限公司,未经中国搜索信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110769744.X/2.html,转载请声明来源钻瓜专利网。