[发明专利]视频网站的信息抓取方法有效
申请号: | 201010284859.1 | 申请日: | 2010-09-15 |
公开(公告)号: | CN101937469A | 公开(公告)日: | 2011-01-05 |
发明(设计)人: | 景晓军;沈智杰;殷廷圣 | 申请(专利权)人: | 深圳市任子行网络技术股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市顺天达专利商标代理有限公司 44217 | 代理人: | 郭伟刚 |
地址: | 518057 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 网站 信息 抓取 方法 | ||
技术领域
本发明涉及网络搜索技术领域,更具体地说,涉及一种用于获得视频网站中视频的详细信息的信息抓取方法。
背景技术
1994年基于WEB的搜索引擎出现以来,搜索引擎便得到了极大的发展。搜索引擎解决了海量互联网资源的快速定位和检索,在人们日常生活和工作中发挥了越来越大的作用。作为搜索引擎的重要一部分,网页信息抓取技术,即抓取技术的发展也是越来越成熟。在计算机领域,越来越多的网络抓取技术都以开源的方式提供给开发人员和企业应用,下面简要介绍几种目前比较流行的开源网络抓取技术。
Larbin:Larbin是一个开源的网络抓取技术,由法国人独立开发,目的是跟踪页面的URL进行扩展抓取,最后为搜索引擎提供数据来源。Larbin只抓取网页,不处理搜索引擎的其他解析、索引、检索工作。Larbin非常高效,一个简单的Larbin抓取每天可以获取500万网页。
Heritrix:Heritrix是SourceForge上的开源产品。Heritrix的特点是具有很好的扩展性,开发者可以根据自己的需要,扩展下载逻辑。抓取工具根据给定URL地址想网站提交HTTP请求,抓取网络资源,获取完整、及时的网站内容。通过分析已下载网页内的有效链接URL地址,进一步获取更多网络资源。Heritrix可以通过WEB用户界面方便地启动和管理下载过程,控制策略灵活。Heritrix也可以获取图像以及其他非文本内容。
Nutch:Nutch是一个完整的Java应用系统,以Lucene为基础实现了搜索引擎应用。Nutch提供了网页抓取和下载功能,并且把下载结果通过Lucene接口存储到数据库,并建立索引。
随着视频网站在国内的普及和蓬勃发展,人们的互联网生活几乎与视频网站已经密不可分。不仅人们十分喜欢视频这种直观的信息获取方式,爱浏览视频,而且很多人都亲自参与视频的拍摄和制作,并发布视频于视频站点与网友们共享和交流。视频网站信息抓取的运行任务就是抓取各个视频网站的视频的详细信息,包括视频发布人、视频名称、上传时间、标签、简介、图片、浏览次数、评论次数等。做到针对视频网站视频信息发布的整体监控。
目前基本所有的开源网络抓取技术的总体设计原理相同。即抓取过程从一个或若干初始网页开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前网页上抽取新的URL放入队列直到满足系统停止条件。由于需要对视频节目多维度的信息采集,抓取程序需要能够定位出网页中存在的多个属性(如点击数、回复数、所属类别、节目上传人)对应的具体信息。所以对于视频网站的节目抓取而言,普通的页面下载和URL抽取方式并不能满足视频搜索这种特殊搜索目标的信息采集。并且由于视频网站节目信息的特殊性,普通模式的网页抓取无法或者没有获取一些特殊信息,如节目对应图片、节目所在搜索层数等。此外,为了获取丰富的数据,针对视频网站的特点,抓取工具还需要做其他特殊操作。
发明内容
本发明要解决的技术问题在于,针对现有的视频网站的信息抓取技术不能完整的获取视频网站节目的所有信息的缺陷,提供一种完整、方便的抓取视频网站中的全部视频信息的信息抓取方法。
本发明解决其技术问题所采用的技术方案是:构造一种视频网站的信息抓取方法,其中包括步骤:S1、抓取视频网站的网页的源文件;S2、针对不同格式的网页,指定不同的正则表达式集合对所述网页的源文件中视频节目的属性信息进行定位,产生定位结果;S3、根据所述定位结果,将所述网页的源文件与所述正则表达式集合中的正则表达式进行匹配,产生匹配结果;S4、根据所述匹配结果,将所述网页的源文件中视频节目的属性信息存入相应的属性库中。
在本发明所述的视频网站的信息抓取方法中,步骤S3包括步骤:S31、根据所述定位结果,对所述网页的源文件与本地标签库进行对比,产生对比结果;S32、根据所述对比结果,过滤所述网页的源文件;S33、将过滤后的网页的源文件与所述正则表达式集合中的正则表达式进行匹配,产生匹配结果。
在本发明所述的视频网站的信息抓取方法中,步骤S1之前包括步骤:S01、解析所述网页的当层链接,得到下一层链接;S02、重复步骤S01直到最大抓取时间;S03、根据所述网页链接的解析结果得到待抓取的网页。
在本发明所述的视频网站的信息抓取方法中,所述步骤S03包括:S031、确定待抓取的域名范围和所述网页链接的过滤正则;S032、根据所述域名范围和过滤正则对所述网页进行过滤;S033、根据所过滤后的网页链接的解析结果得到待抓取的网页。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市任子行网络技术股份有限公司,未经深圳市任子行网络技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010284859.1/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置