[发明专利]基于视频网站的主题类视频自动采集方法无效
申请号: | 201210332522.2 | 申请日: | 2012-09-10 |
公开(公告)号: | CN102880674A | 公开(公告)日: | 2013-01-16 |
发明(设计)人: | 姜明;陈婵;沈幸峰;王兴起;张旻;汤景凡;胡宏宇 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 杜军 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 视频 网站 主题 自动 采集 方法 | ||
1. 基于视频网站的主题类视频自动采集方法,通过对视频网站主题类的选取,并进行准确下载该主题视频,其特征在于包括如下步骤:
(1)提取视频网站主题框架;
(2)选定主题及采集相应主题的视频播放URL;
(3)视频播放URL转化为视频下载URL,普通页面URL分析获取URL,将其放入队列;
(4)根据视频下载URL下载视频并存储。
2.根据权利要求1所述的基于视频网站的主题类视频自动采集方法,其特征是:提取视频网站主题框架,包括如下步骤:
A)在数据库中建立一张表WebsiteTree,包含Id、Url、WebsiteName、ParentId、Level这5个字段,其中Id为主键;
B)分析视频网站首页源代码,利用正则表达式获取导航栏,包括URL、主题名;记录该主题属于哪一类别,属于第几级主题,并将信息存储于数据库表WebsiteTree;
C)对于提取的主题相应页面的源码进行分析,如果还有小类,则跳转至步骤B),若没有,则执行步骤D);
D)根据WebsiteTree表中的信息构建视频网站主题框架。
3.根据权利要求1所述的基于视频网站的主题类视频自动采集方法,其特征是:选定主题及采集相应主题的视频播放URL,包括如下步骤:
E)用户从主题框架中选择主题;
F)分析该主题的页面源代码,利用正则表达式获取视频播放URL和普通页面URL,放入URL队列;队列的特点是先进先出,对于先放入队列的URL先进行分析。
4.根据权利要求1所述的基于视频网站的主题类视频自动采集方法,其特征是:视频播放URL转化为视频下载URL,普通页面URL分析获取URL,将其放入队列,包括如下步骤:
G)设置一个最大分析页面线程并发数,开启线程,线程依次访问URL队列中的信息;
H)线程从URL队列中获取一个URL,若该URL是视频播放URL,则将其与“http://www.flvcd.com/parse.php?kw=”字符串连接,并获取该地址的源代码;利用正则表达式从该源代码中获取该播放URL的下载地址;
I)若是普通页面URL,则获取该页面源代码,分析并提取URL,如果该URL没有被提取过,则放入URL队列,否则将其丢弃;
J)当H)中所获取的URL页面分析完成,线程自动释放,并再次从URL队列中获取一个URL进行重复H)、I)操作,直到URL队列分析完成停止。
5.根据权利要求1所述的基于视频网站的主题类视频自动采集方法,其特征是:根据视频下载URL下载视频并存储,包括如下步骤:
K)在数据库中建立一张表VideoInf,包含Id、Url、Title、Tag、Comments、UploadUser、UploadTime、Clickrate、CommentCount、FileSize这10个字段,其中Id为主键;
L)设置一个最大下载线程并发数,开启线程,线程依次等待视频下载的命令;
M)线程接受视频下载URL,截取下载URL字符串中最后一个’/’之后的字符串作为文件名,并新建下载,将视频存储于磁盘;
N)将视频的详细信息存储于数据库表VideoInf表中;
O)当视频下载完成,线程释放,等待下一个视频下载的命令。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210332522.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:包括圆极化天线的天线系统
- 下一篇:热控巯基离子液体修饰电极的制备方法