[发明专利]一种基于改进鲨鱼搜索的主题爬虫方法有效

专利信息
申请号: 201910395283.7 申请日: 2019-05-13
公开(公告)号: CN110532450B 公开(公告)日: 2021-05-04
发明(设计)人: 吴骏;谈志文;张哲成;王崇骏 申请(专利权)人: 南京大学
主分类号: G06F16/951 分类号: G06F16/951
代理公司: 南京瑞弘专利商标事务所(普通合伙) 32249 代理人: 彭雄
地址: 210093 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于改进鲨鱼搜索的主题爬虫方法,包括如下步骤1)种子url配置以及主题词配置阶段;2)网页下载阶段;3)主题判别阶段;4)爬虫搜索阶段:a计算链接的内容得分以及url聚类得分;b对父网页进行hub型页面判定;c计算链接的搜索深度;d将链接加入url优先级队列,并根据链接得分与搜索深度调整队列中顺序。本发明利用主题词向量、url聚类算法以及hub型页面判别解决了主题爬虫中主题判别不准确、爬取覆盖面积不足的问题。
搜索关键词: 一种 基于 改进 鲨鱼 搜索 主题 爬虫 方法
【主权项】:
1.一种基于改进鲨鱼搜索的主题爬虫方法,其特征在于,包括如下步骤:/n步骤1,种子url配置以及主题词配置阶段:通过人工选取待爬取目标网页的种子url以及描述该主题的主题词汇;/n步骤2,网页下载阶段:进行网页下载,设置超时时间,如果爬取超时则放弃当前链接;根据下载的网页,使用解析工具提取网页信息,网页信息包括url、标题、正文、html标签信息;/n步骤3,主题判别阶段:根据步骤2中提取的网页信息,对网页的主题进行判别,过滤不相关的网页;/n步骤4,爬虫搜索阶段:根据步骤3求得的网页相关度,对网页中的链接进行得分计算,包括链接内容得分以及url聚类得分,然后计算当前链接的搜索深度,如果搜索深度小于零时丢弃链接,否则将链接加入url优先级队列,并调整队列中url顺序;/n对网页中的链接进行得分计算的方法如下:/nS401、计算链接的内容得分,公式如下:/nscorecontent(link)=γ*inherited(link)+(1-γ)*neighbourhood(link)/n其中,link表示当前链接,neighborhood(link)表示链接的邻接得分,inherited(link)是从父页面继承来的得分,计算公式如下:/n /n其中,link表示当前链接,cur_page表示当前页面,topic表示当前主题,sim函数为余弦公式计算得到,δ是衰减因子,neighbourhood(link)是链接的邻接元素得分,它的计算包含锚文本评分与锚文本上下文评分,计算公式如下:/nneighborhood(link)=β*anchor_score(link)+(1-β)*anchor_ctx_score(link)/n其中,β为加权系数,anchor_score(url)和anchor_ctx_score(link)分别是链接的锚文本和锚文本上下文文本的评分,通过锚文本以及上下文文本与主题的相关度求得,如果锚文本和主题是相关的,则上下文得分取1,否则再进行上下文文本与主题的相关度计算;具体计算公式如下:/nanchor_score(link)=sim(topic,anchor_text)/n /n其中,anchor_score(link)表示链接的锚文本评分,anchor_text表示链接锚文本,link表示当前链接,anchor_ctx_score(link)表示链接锚文本附近文本评分,anchor_ctx表示链接上下文文本,sim函数表示主题相关度公式,topic表示当前主题,γ,δ,β为预定义常量;/nS402、计算链接的url聚类得分,首先url通过”/”和”.”分割的字符串集合,定义url之间的相似性规则:/n1).任意2个字母之间是相似的;/n2).两个相同的字符串是相似的;/n3).长度相同的2个字符串,如果对应位置的类型一致,也是相似的;/nS403、将url聚类,聚类方法如下:/n步骤1).从当前簇中任选一个url记为uc;/n步骤2).如果当前url相似于uc,则将url归为当前簇;/n步骤3).如果不相似,则选择下一个簇,重复上述步骤1-2);/n步骤4).如果所有簇都不相似,则该url自成一簇;/nS404、根据url聚类的结果计算url聚类得分,公式如下:/n /n其中,score_cluster表示聚类得分,当前url属于的簇ci,则记ci中url数量为n,当前系统中已保存的所有url数量为N,簇的数量为K;/nS404、计算链接的最终得分,具体公式为:/nscore(link)=w*scorecluster(link)+(1-w)*scorecontent(link)/n其中,link表示当前链接,score(link)表示链接的最终得分,score_cluster(link)表示链接的聚类得分,scorecontent(link)表示链接的内容得分,w表示加权系数。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910395283.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top