[发明专利]一种面向主题的网页采集系统在审

申请号：	201310275115.7	申请日：	2013-07-02
公开（公告）号：	CN103310013A	公开（公告）日：	2013-09-18
发明（设计）人：	王宝会;于雷;王丽华;王新河;尹科	申请（专利权）人：	北京航空航天大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京科迪生专利代理有限责任公司 11251	代理人：	成金玉;卢纪
地址：	100191***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种面向主题网页采集系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种面向主题的网页采集系统，属于网络通信领域，用于对面向主题的网络信息采集方面。

背景技术

随着WEB信息资源的迅猛增长，传统的信息搜索系统已无法保证对信息的及时更新，并且由于采集信息的主题范围过于广泛，已经无法满足人们对个性化信息检索服务日益增长的需求。近年来研究者不断提出新一代搜索引擎的发展方向，而主题搜索是其中尤为突出的一类。与普通搜索引擎比较，主题搜索引擎的检索范围相对较小，查准率和查全率易于保证。在搜索过程中无须对整个WEB进行遍历，只需选择与主题页面相关的页面进行访问，基本回避了传统信息采集系统信息指数膨胀的危机。

现有的主题网络爬虫存在如下问题：（1）在进行主题网页信息采集的时候很难判断准确目标网站内的网页是否为本主题的网页，所以采集的时候很容采集到大量的非本主题网页。（2）主题网络爬虫的优势就是无需对页面进行遍历，只需要选择与主题相关的页面进行访问，但是在选择的过程中，与主题相关的页面定义非常困难。

发明内容

本发明技术解决问题：克服现有技术的不足，提供一种面向主题的网页采集系统，该系统具有较高的效率和较强的页面适应性，有效的解决了现有技术中存在的问题。

本发明的技术解决方案：一种面向主题的网页采集系统，其特征在于包括：样本训练模块、策略搜索模块和采集模块；

样本训练模块，通过人工设定的网页样本库进行分析和计算得出主题特征向量和值，及页面的相似度阀值；

策略搜索模块，控制检索的URL（URL即网页地址）地址集，把搜索范围控制在候选种子网站；

采集模块，接受策略搜索模块发送过来的URL地址集，并进行页面的净化、特征提取、分析、并采集保存；在进行特征分析的过程中，判断同主题网页的主题特征向量与值和相似度阀值需要人工参考样本训练模块的结果来进行填写；

所述策略搜索模块实现过程为：

（11）首先构造主题类缓冲池positivePool、非主题类缓冲池negtivePool两类缓冲池，用来存放URL类实体，即URL地址集中的URL地址；两个缓冲池初始化值均为空集合；所述主题类缓冲池中存放与采集主题相关的URL地址，非主题类缓冲池中存放的为和采集主题不相关的URL地址，缓冲池的作用就是放URL地址以便采集网页的时候可以快速使用，分为主题类和非主题类是为了形成主题类的URL地址集；所述缓冲池即为封装好的队列操作，为计算机领域常用技术；

（12）人工选取种子站点Seeds，构成搜索程序Spider的初始网页集即URL地址集；

（13）把人工选取的种子站点的初始网页集进行Spider搜索，并结合定点策略、缓冲池策略，记录对应页面地址；本模块记录的页面地址最后全部提供给采集模块进行页面的采集；所述定点策略为只对人工选定的站点进行站内搜索；所述缓冲池策略为把采集的页面地址放入缓冲池，这样能够加快采集时查重的速度；

所述采集模块的实现过程为：对页面地址Raw URLi，i∈N，i≤n做如下处理：

（21）页面预处理，获得页面P_i；

（22）若pos itivePool不为空则进行搜索，若P_i与其中条目匹配则认为网页属于主题页面，P_i处理结束，返回（21）处理P_i+1；

（23）若negtivePool不为空则进行搜索，若P_i与其中条目匹配则认为网页不属于主题页面，P_i处理结束，返回（21）处理P_i+1；

（24）根据公式(6)构建页面P_i的HVSM特征向量V；

V=(k_tω₁,…,k_tω_i,k_sω₁’，…，k_sω_j’)=(ω₁’，ω₂’，…，ω_n’) (6)