[发明专利]一种监测视频更新的方法和装置有效
申请号: | 201510091880.2 | 申请日: | 2015-02-28 |
公开(公告)号: | CN104765766B | 公开(公告)日: | 2019-05-24 |
发明(设计)人: | 林祖新 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/955 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种监测视频更新的方法和装置,以解决现有的监测方案监测效率低、监测结果不准确的问题。其中,方法包括:按照预设周期确定至少一个视频网站中待监测的视频的URL;从URL对应的网页中抓取视频的视频信息;根据视频信息监测视频是否更新;若更新,则获取视频的更新信息,并将视频的视频信息和更新信息保存至数据库中。本发明能够保证监测结果更加实时、准确,监测效率更高,根据各个视频网站中的视频的更新情况可以分析自身的视频网站中视频更新较慢的原因,从而为视频网站的改进提供有利的依据。 | ||
搜索关键词: | 一种 监测 视频 更新 方法 装置 | ||
【主权项】:
1.一种监测视频更新的方法,其特征在于,包括:按照预设周期确定至少一个视频网站中待监测的视频的URL;从所述URL对应的网页中抓取所述视频的视频信息,其中将未抓取的网页对应的URL标记为待抓取URL;调度爬虫进程访问所述待抓取URL,从该待抓取URL对应的网页中抓取所述视频的视频信息,并将已抓取的网页对应的URL标记为已抓取URL;判断是否存在剩余的待抓取URL,若存在,则返回所述调度爬虫进程访问所述待抓取URL,从该待抓取URL对应的网页中抓取所述视频的视频信息的步骤;其中,同时调度多个爬虫进程访问多个待抓取URL;所述从该待抓取URL对应的网页中抓取所述视频的视频信息包括:分析待抓取URL对应的网页,得到该网页对应的DOM树结构信息;确定需要抓取的视频的视频信息在所述DOM树结构中的节点位置信息;从所述节点位置信息对应的节点抓取视频信息;根据所述视频信息监测所述视频是否更新;若更新,则获取所述视频的更新信息,并将所述视频的视频信息和更新信息保存至数据库中;其中,所述按照预设周期确定至少一个视频网站中待监测的视频的URL的步骤包括:按照预设周期分别对所述至少一个视频网站的网站信息进行分析,得到所述至少一个视频网站中待监测的视频的URL;其中,在所述分别对所述至少一个视频网站的网站信息进行分析,得到所述至少一个视频网站中的待监测视频的URL的步骤之前,还包括:确定所述至少一个视频网站的入口地址,所述入口地址为视频网站的导航页的URL;调度爬虫进程访问所述至少一个视频网站的入口地址,获取所述至少一个视频网站的网站信息,包括:调度爬虫进程访问所述至少一个视频网站的入口地址,从所述视频网站的入口地址对应的网页中抓取所述视频网站的预设频道的入口地址;调度爬虫进程访问所述预设频道的入口地址,从所述预设频道的入口地址对应的网页中抓取所述预设频道中的视频的标识和视频的URL;将该视频网站的预设频道中的视频的标识和视频的URL作为该视频网站的网站信息。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510091880.2/,转载请声明来源钻瓜专利网。
- 上一篇:海量人脸库的快速准确检索方法
- 下一篇:自动挖掘配伍关系系统及其方法