[发明专利]一种基于改进鲨鱼搜索的主题爬虫方法有效

申请号：	201910395283.7	申请日：	2019-05-13
公开（公告）号：	CN110532450B	公开（公告）日：	2021-05-04
发明（设计）人：	吴骏;谈志文;张哲成;王崇骏	申请（专利权）人：	南京大学
主分类号：	G06F16/951	分类号：	G06F16/951
代理公司：	南京瑞弘专利商标事务所(普通合伙) 32249	代理人：	彭雄
地址：	210093 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于改进鲨鱼搜索的主题爬虫方法，包括如下步骤1)种子url配置以及主题词配置阶段；2)网页下载阶段；3)主题判别阶段；4)爬虫搜索阶段：a计算链接的内容得分以及url聚类得分；b对父网页进行hub型页面判定；c计算链接的搜索深度；d将链接加入url优先级队列，并根据链接得分与搜索深度调整队列中顺序。本发明利用主题词向量、url聚类算法以及hub型页面判别解决了主题爬虫中主题判别不准确、爬取覆盖面积不足的问题。
搜索关键词：	一种基于改进鲨鱼搜索主题爬虫方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于改进鲨鱼搜索的主题爬虫方法，其特征在于，包括如下步骤：/n步骤1，种子url配置以及主题词配置阶段：通过人工选取待爬取目标网页的种子url以及描述该主题的主题词汇；/n步骤2，网页下载阶段：进行网页下载，设置超时时间，如果爬取超时则放弃当前链接；根据下载的网页，使用解析工具提取网页信息，网页信息包括url、标题、正文、html标签信息；/n步骤3，主题判别阶段：根据步骤2中提取的网页信息，对网页的主题进行判别，过滤不相关的网页；/n步骤4，爬虫搜索阶段：根据步骤3求得的网页相关度，对网页中的链接进行得分计算，包括链接内容得分以及url聚类得分，然后计算当前链接的搜索深度，如果搜索深度小于零时丢弃链接，否则将链接加入url优先级队列，并调整队列中url顺序；/n对网页中的链接进行得分计算的方法如下：/nS401、计算链接的内容得分，公式如下：/nscore_content(link)＝γ*inherited(link)+(1-γ)*neighbourhood(link)/n其中，link表示当前链接，neighborhood(link)表示链接的邻接得分，inherited(link)是从父页面继承来的得分，计算公式如下：/n /n其中，link表示当前链接，cur_page表示当前页面，topic表示当前主题，sim函数为余弦公式计算得到，δ是衰减因子，neighbourhood(link)是链接的邻接元素得分，它的计算包含锚文本评分与锚文本上下文评分，计算公式如下：/nneighborhood(link)＝β*anchor_score(link)+(1-β)*anchor_ctx_score(link)/n其中，β为加权系数，anchor_score(url)和anchor_ctx_score(link)分别是链接的锚文本和锚文本上下文文本的评分，通过锚文本以及上下文文本与主题的相关度求得，如果锚文本和主题是相关的，则上下文得分取1，否则再进行上下文文本与主题的相关度计算；具体计算公式如下：/nanchor_score(link)＝sim(topic，anchor_text)/n /n其中，anchor_score(link)表示链接的锚文本评分，anchor_text表示链接锚文本，link表示当前链接，anchor_ctx_score(link)表示链接锚文本附近文本评分，anchor_ctx表示链接上下文文本，sim函数表示主题相关度公式，topic表示当前主题，γ，δ，β为预定义常量；/nS402、计算链接的url聚类得分，首先url通过”/”和”.”分割的字符串集合，定义url之间的相似性规则：/n1).任意2个字母之间是相似的；/n2).两个相同的字符串是相似的；/n3).长度相同的2个字符串，如果对应位置的类型一致，也是相似的；/nS403、将url聚类，聚类方法如下：/n步骤1).从当前簇中任选一个url记为u_c；/n步骤2).如果当前url相似于u_c，则将url归为当前簇；/n步骤3).如果不相似，则选择下一个簇，重复上述步骤1-2)；/n步骤4).如果所有簇都不相似，则该url自成一簇；/nS404、根据url聚类的结果计算url聚类得分，公式如下：/n /n其中，score_cluster表示聚类得分，当前url属于的簇c_i，则记c_i中url数量为n，当前系统中已保存的所有url数量为N，簇的数量为K；/nS404、计算链接的最终得分，具体公式为：/nscore(link)＝w*score_cluster(link)+(1-w)*score_content(link)/n其中，link表示当前链接，score(link)表示链接的最终得分，score_cluster(link)表示链接的聚类得分，score_content(link)表示链接的内容得分，w表示加权系数。/n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京大学，未经南京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910395283.7/，转载请声明来源钻瓜专利网。

上一篇：一种业务文档的处理方法、装置、设备和存储介质
下一篇：针对政策文本的检索方法和装置、存储介质、电子装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于改进鲨鱼搜索的主题爬虫方法有效

专利文献下载