[发明专利]一种网络视频采集方法及系统在审
申请号: | 201911063184.5 | 申请日: | 2019-10-31 |
公开(公告)号: | CN110866165A | 公开(公告)日: | 2020-03-06 |
发明(设计)人: | 夏光升;孙涛 | 申请(专利权)人: | 天津市国瑞数码安全系统股份有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955;G06F16/215;G06F16/27;H04N7/18 |
代理公司: | 北京知联天下知识产权代理事务所(普通合伙) 11594 | 代理人: | 张陆军;张迎新 |
地址: | 300384 天津市西青区华*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 视频 采集 方法 系统 | ||
1.一种网络视频采集方法,其特征在于,所述视频采集方法包括:
对网络地址数据进行清洗处理;
根据清洗处理后的所述网络地址数据,生成网页抓取任务;
执行所述网页抓取任务,下载网页中的视频数据。
2.根据权利要求1所述的视频采集方法,其特征在于,所述对网络地址数据进行清洗处理包括:
通过MapReduce编程模型对存储在分布式文件系统中网络地址数据进行首次清洗处理;
将经过首次清洗处理后的网络地址数据转存至Hbase分布式存储系统;
利用HiveSql函数对所述Hbase分布式存储系统中的网络地址数据,进行二次清洗处理。
3.根据权利要求1或2所述的视频采集方法,其特征在于,所述清洗处理包括:删除不符合网络地址规则的网络地址数据、删除重复的网络地址数据中的一种或多种。
4.根据权利要求1所述的视频采集方法,其特征在于,所述生成网页抓取任务包括:
调取清洗处理后的网络地址数据;
将所述网络地址数据分为视频网络地址数据和非视频网络地址数据;
对所述视频网络地址数据进行流处理并保存;
根据所述非视频网络地址数据生成网页抓取任务。
5.根据权利要求4所述的视频采集方法,其特征在于,所述生成网页抓取任务还包括:
通过Kafka流处理平台调取清洗处理后的网络地址数据;
所述Kafka流处理平台将所述网络地址数据分为视频网络地址数据和非视频网络地址数据;
通过Storm分布式实时计算系统对所述视频网络地址数据进行流处理并保存;
所述Storm分布式实时计算系统根据所述非视频网络地址数据生成网页抓取任务。
6.根据权利要求1所述的视频采集方法,其特征在于,若所述执行网页抓取任务失败,则将所述网页抓取任务对应的网络地址数据保存至数据库服务器中,等待再次被调取执行。
7.根据权利要求1所述的视频采集方法,其特征在于,所述下载网页中的视频数据包括:下载所述网页抓取任务对应的网页中的视频数据、下载所述网页的链接网页中的视频数据。
8.一种网络视频采集系统,其特征在于,所述视频采集系统包括:
清洗单元,用于对网络地址数据进行清洗处理;
任务生成单元,用于根据清洗处理后的所述网络地址数据,生成网页抓取任务;
视频下载单元,用于执行所述网页抓取任务,下载网页中的视频数据。
9.根据权利要求8所述的视频采集系统,其特征在于,
所述清洗单元通过MapReduce编程模型对存储在分布式文件系统中的网络地址数据,进行首次清洗处理;
所述清洗单元将经过首次清洗处理后的网络地址数据转存至Hbase分布式存储系统;
所述清洗单元利用HiveSql函数对所述Hbase分布式存储系统中的网络地址数据,进行二次清洗处理。
10.根据权利要求8所述的视频采集系统,其特征在于,
所述任务生成单元调取清洗处理后的网络地址数据;
所述任务生成单元将所述网络地址数据分为视频网络地址数据和非视频网络地址数据;
所述任务生成单元对所述视频网络地址数据进行流处理并保存;
所述任务生成单元根据所述非视频网络地址数据生成网页抓取任务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津市国瑞数码安全系统股份有限公司,未经天津市国瑞数码安全系统股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911063184.5/1.html,转载请声明来源钻瓜专利网。