[发明专利]一种基于改进鲨鱼搜索的主题爬虫方法有效
申请号: | 201910395283.7 | 申请日: | 2019-05-13 |
公开(公告)号: | CN110532450B | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 吴骏;谈志文;张哲成;王崇骏 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 彭雄 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于改进鲨鱼搜索的主题爬虫方法,包括如下步骤1)种子url配置以及主题词配置阶段;2)网页下载阶段;3)主题判别阶段;4)爬虫搜索阶段:a计算链接的内容得分以及url聚类得分;b对父网页进行hub型页面判定;c计算链接的搜索深度;d将链接加入url优先级队列,并根据链接得分与搜索深度调整队列中顺序。本发明利用主题词向量、url聚类算法以及hub型页面判别解决了主题爬虫中主题判别不准确、爬取覆盖面积不足的问题。 | ||
搜索关键词: | 一种 基于 改进 鲨鱼 搜索 主题 爬虫 方法 | ||
【主权项】:
1.一种基于改进鲨鱼搜索的主题爬虫方法,其特征在于,包括如下步骤:/n步骤1,种子url配置以及主题词配置阶段:通过人工选取待爬取目标网页的种子url以及描述该主题的主题词汇;/n步骤2,网页下载阶段:进行网页下载,设置超时时间,如果爬取超时则放弃当前链接;根据下载的网页,使用解析工具提取网页信息,网页信息包括url、标题、正文、html标签信息;/n步骤3,主题判别阶段:根据步骤2中提取的网页信息,对网页的主题进行判别,过滤不相关的网页;/n步骤4,爬虫搜索阶段:根据步骤3求得的网页相关度,对网页中的链接进行得分计算,包括链接内容得分以及url聚类得分,然后计算当前链接的搜索深度,如果搜索深度小于零时丢弃链接,否则将链接加入url优先级队列,并调整队列中url顺序;/n对网页中的链接进行得分计算的方法如下:/nS401、计算链接的内容得分,公式如下:/nscorecontent(link)=γ*inherited(link)+(1-γ)*neighbourhood(link)/n其中,link表示当前链接,neighborhood(link)表示链接的邻接得分,inherited(link)是从父页面继承来的得分,计算公式如下:/n /n其中,link表示当前链接,cur_page表示当前页面,topic表示当前主题,sim函数为余弦公式计算得到,δ是衰减因子,neighbourhood(link)是链接的邻接元素得分,它的计算包含锚文本评分与锚文本上下文评分,计算公式如下:/nneighborhood(link)=β*anchor_score(link)+(1-β)*anchor_ctx_score(link)/n其中,β为加权系数,anchor_score(url)和anchor_ctx_score(link)分别是链接的锚文本和锚文本上下文文本的评分,通过锚文本以及上下文文本与主题的相关度求得,如果锚文本和主题是相关的,则上下文得分取1,否则再进行上下文文本与主题的相关度计算;具体计算公式如下:/nanchor_score(link)=sim(topic,anchor_text)/n /n其中,anchor_score(link)表示链接的锚文本评分,anchor_text表示链接锚文本,link表示当前链接,anchor_ctx_score(link)表示链接锚文本附近文本评分,anchor_ctx表示链接上下文文本,sim函数表示主题相关度公式,topic表示当前主题,γ,δ,β为预定义常量;/nS402、计算链接的url聚类得分,首先url通过”/”和”.”分割的字符串集合,定义url之间的相似性规则:/n1).任意2个字母之间是相似的;/n2).两个相同的字符串是相似的;/n3).长度相同的2个字符串,如果对应位置的类型一致,也是相似的;/nS403、将url聚类,聚类方法如下:/n步骤1).从当前簇中任选一个url记为uc;/n步骤2).如果当前url相似于uc,则将url归为当前簇;/n步骤3).如果不相似,则选择下一个簇,重复上述步骤1-2);/n步骤4).如果所有簇都不相似,则该url自成一簇;/nS404、根据url聚类的结果计算url聚类得分,公式如下:/n /n其中,score_cluster表示聚类得分,当前url属于的簇ci,则记ci中url数量为n,当前系统中已保存的所有url数量为N,簇的数量为K;/nS404、计算链接的最终得分,具体公式为:/nscore(link)=w*scorecluster(link)+(1-w)*scorecontent(link)/n其中,link表示当前链接,score(link)表示链接的最终得分,score_cluster(link)表示链接的聚类得分,scorecontent(link)表示链接的内容得分,w表示加权系数。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910395283.7/,转载请声明来源钻瓜专利网。