[发明专利]基于视频网站的主题类视频自动采集方法无效
申请号: | 201210332522.2 | 申请日: | 2012-09-10 |
公开(公告)号: | CN102880674A | 公开(公告)日: | 2013-01-16 |
发明(设计)人: | 姜明;陈婵;沈幸峰;王兴起;张旻;汤景凡;胡宏宇 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 杜军 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 视频 网站 主题 自动 采集 方法 | ||
技术领域
本发明涉及一种主题类视频自动采集方法,具体是一种基于视频网站的主题类视频自动采集方法。
背景技术
现行的搜索引擎都是基于用户输入的关键字进行信息查询的文本搜索引擎。随着多媒体技术的飞速发展、网络通信能力的极大提高和计算机处理速度的不断增长,Internet上的信息除了文本之外,还有大量的图像、视频、音频、动画和图形等,对这些媒体类型的信息进行快速准确的检索已经成为人们的迫切需要。尤其是在Blog、TAG、SNS、RSS、Wiki等社会软件应用为代表的Web2.0出现以后,网络视频大量出现,各大新闻网站纷纷建立在线新闻频道,如CNTV;大量视频网站的出现,如优酷、酷6等。
每天大量的视频被网友、新闻媒体上传,用户只能从视频网站中去搜索查看,但是如果想要收藏某一类的视频,那么如果只是人为的去操作下载,就会有很大的阻碍。
发明内容
本发明针对现有技术的不足,提供一种基于文本分析的面向视频网站的互联网视频搜索方法。
本发明方法具体包括以下步骤:
(1)提取视频网站主题框架。
(2)选定主题及采集相应主题的视频播放URL。
(3)视频播放URL转化为视频下载URL,普通页面URL分析获取URL,将其放入队列。
(4)根据视频下载URL下载视频并存储。
所述的提取视频网站主题框架,包括如下步骤:
A)在数据库中建立一张表WebsiteTree,包含Id、Url、WebsiteName、ParentId、Level这5个字段,其中Id为主键。
B)分析视频网站首页源代码,利用正则表达式获取导航栏,包括URL、主题名;记录该主题属于哪一类别,属于第几级主题,并将信息存储于数据库表WebsiteTree。
C)对于提取的主题相应页面的源码进行分析,如果还有小类,则跳转至步骤B),若没有,则执行步骤D)。
D)根据WebsiteTree表中的信息构建视频网站主题框架。
所述的选定主题及采集相应主题的视频播放URL,包括如下步骤:
E)用户从主题框架中选择主题。
F)分析该主题的页面源代码,利用正则表达式获取视频播放URL和普通页面URL,放入URL队列;队列的特点是先进先出,对于先放入队列的URL先进行分析。
所述的视频播放URL转化为视频下载URL,普通页面URL分析获取URL,将其放入队列,包括如下步骤:
G)设置一个最大分析页面线程并发数,开启线程,线程依次访问URL队列中的信息。
H)线程从URL队列中获取一个URL,若该URL是视频播放URL,则将其与“http://www.flvcd.com/parse.php?kw=”字符串连接,并获取该地址的源代码;利用正则表达式从该源代码中获取该播放URL的下载地址。
I)若是普通页面URL,则获取该页面源代码,分析并提取URL,如果该URL没有被提取过,则放入URL队列,否则将其丢弃。
J)当H)中所获取的URL页面分析完成,线程自动释放,并再次从URL队列中获取一个URL进行重复H)、I)操作,直到URL队列分析完成停止。
所述的根据视频下载URL下载视频并存储,包括如下步骤:
K)在数据库中建立一张表VideoInf,包含Id、Url、Title、Tag、Comments、UploadUser、UploadTime、Clickrate、CommentCount、FileSize这10个字段,其中Id为主键。
L)设置一个最大下载线程并发数,开启线程,线程依次等待视频下载的命令。
M)线程接受视频下载URL,截取下载URL字符串中最后一个’/’之后的字符串作为文件名,并新建下载,将视频存储于磁盘。
N)将视频的详细信息存储于数据库表VideoInf表中。
O)当视频下载完成,线程释放,等待下一个视频下载的命令。
本发明的有益效果:
第一,由于本发明设计了视频网站的主题类提取及框架显示,所以能更容易解决用户需要下载的类别,提高下载的准确性。
第二,由于本发明设计了多线程分析视频播放URL转化为视频下载URL并将视频进行下载,所以能更容易解决多个视频同时下载的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210332522.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:包括圆极化天线的天线系统
- 下一篇:热控巯基离子液体修饰电极的制备方法