[发明专利]一种面向主题的网页采集系统在审
申请号: | 201310275115.7 | 申请日: | 2013-07-02 |
公开(公告)号: | CN103310013A | 公开(公告)日: | 2013-09-18 |
发明(设计)人: | 王宝会;于雷;王丽华;王新河;尹科 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 成金玉;卢纪 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种面向主题的网页采集系统,属于网络通信领域,用于对面向主题的网络信息采集方面,包括样本训练模块、策略搜索模块和采集模块;样本训练模块通过人工设定的网页样本库进行分析和计算得出主题特征向量和值,及页面的相似度阀值;策略搜索模块控制检索的URL地址集,把搜索范围控制在候选种子网站;采集模块,接受策略搜索模块发送过来的URL地址集,并进行页面的净化、特征提取、分析、并采集保存;在进行特征分析的过程中,判断同主题网页的主题特征向量与值和相似度阀值需要人工参考样本训练模块的结果来进行填写。本发明具有较高的效率和较强的页面适应性,有效的解决了现有技术中存在的问题。 | ||
搜索关键词: | 一种 面向 主题 网页 采集 系统 | ||
【主权项】:
一种面向主题的网页采集系统,其特征在于包括:样本训练模块、策略搜索模块和采集模块;样本训练模块,通过人工设定的网页样本库进行分析和计算得出主题特征向量和值,及页面的相似度阀值;策略搜索模块,控制检索的URL地址集,把搜索范围控制在候选种子网站;采集模块,接受策略搜索模块发送过来的URL地址集,并进行页面的净化、特征提取、分析、并采集保存;在进行特征分析的过程中,判断同主题网页的主题特征向量与值和相似度阀值需要人工参考样本训练模块的结果来进行填写;所述策略搜索模块实现过程为:(11)首先构造主题类缓冲池positivePool、非主题类缓冲池negtivePool两类缓冲池,用来存放URL类实体,即URL地址集中的URL地址;两个缓冲池初始化值均为空集合;所述主题类缓冲池中存放与采集主题相关的URL地址,非主题类缓冲池中存放的为和采集主题不相关的URL地址,缓冲池的作用是放URL地址以便采集网页的时候能快速使用,分为主题类和非主题类是为了形成主题类的URL地址集;所述缓冲池即为封装好的队列操作;(12)人工选取种子站点Seeds,构成搜索程序Spider的初始网页集即URL地址集;(13)把人工选取的种子站点的初始网页集进行Spider搜索,并结合定点策略、缓冲池策略,记录对应页面地址;该模块记录的页面地址最后全部提供给采集模块进行页面的采集;所述定点策略为只对人工选定的站点进行站内搜索;所述缓冲池策略为把采集的页面地址放入缓冲池。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310275115.7/,转载请声明来源钻瓜专利网。
- 上一篇:非结构化数据的描述方法及装置
- 下一篇:网页内容处理的方法及装置