[发明专利]一种页面聚类方法、装置、介质及设备在审
申请号: | 201911279107.3 | 申请日: | 2019-12-12 |
公开(公告)号: | CN111061878A | 公开(公告)日: | 2020-04-24 |
发明(设计)人: | 丁柳朋 | 申请(专利权)人: | 杭州昕华信息科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/957 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 310051 浙江省杭州市滨江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 页面 方法 装置 介质 设备 | ||
1.一种页面聚类方法,其特征在于,所述方法包括:
获取待聚类的页面的页面属性集,所述页面属性集的元素对应一个页面的属性块,所述页面的属性块中包括多个页面子属性;
根据所述页面属性集计算每个页面与其它页面的差异度;
根据所述每个页面与其它页面的差异度构建差异度图,所述差异图中每个顶点表示一个页面,每个顶点和相关节点均有唯一连线,所述连线的权值即为所述顶点表示的页面与所述相关节点表示的页面之间的差异度,所述相关节点为与所述顶点相邻的其他顶点;
获取聚类目标值N,所述聚类目标值表示将待聚类页面划分的类的数量;
根据所述差异度图和所述聚类目标值计算目标差异度;
根据所述目标差异度对所述待聚类页面进行聚类,得到N个类,以使得位于相同类中的页面的差异度均不大于目标聚类差异度,而位于不同的类中的任意两个页面的差异度均大于所述目标聚类差异度。
2.根据权利要求1所述的方法,其特征在于:
每个页面的属性汇聚在属性块之中,并且各个页面均具备相同数量,相同内容的属性,只是属性值不同,但是属性值都经过了归一化处理,取值落在[0,1]之间。
3.根据权利要求2所述的方法,其特征在于:
任意两个页面A,B的差异度可以被标识为每个页面有n个属性,Ai,Bi分别标识A,B页面的第i个属性。
4.根据权利要求2或3所述的方法,其特征在于,所述根据所述差异度图和所述聚类目标值计算目标差异度,包括:
根据所述差异度图获取第一顶点集合和第一连线集合;
初始化第二顶点集合和第二连线集合,所述第二顶点集合中有且仅有一个元素,所述第二连线集合为空;
构建第一属性集,所述第一属性集中的元素用于记录各个顶点的第一属性,所述第一属性表征所述顶点处于第一顶点集合与所述第二顶点集合的差集中时,与第二顶点集合中的各个相关元素所构成的连线的最小权值,所述相关元素对应的顶点为所述差异度图与所述顶点相邻的顶点;
构建第二属性集,所述第二属性集中的元素用于记录各个顶点的第二属性,所述第二属性表征当所述顶点处于第一顶点集合与所述第二顶点集合的差集中时,与第二顶点集合中的各个相关元素所钩成的具有最小权值的连线的中有别于所述顶点的另一个顶点,所述相关元素对应的顶点为所述差异度图与所述顶点相邻的顶点;
执行预设操作,更新第二顶点集合、第二连线集合、第一属性集和第二属性集直至达到预设要求。
5.根据权利要求4所述的方法,其特征在于,所述执行预设操作,更新第二顶点集合、第二连线集合、第一属性集和第二属性集直至达到预设要求,包括:
执行下述操作,直至第二顶点集合与第一顶点集合具备相同的元素数:
(1)在所述第一连线集合中选取权值最小的目标连线,所述目标连线的第一顶点位于第二顶点集合,所述目标连线的第二顶点位于第一顶点集合与所述第二顶点集合的差集;
(2)将所述目标连线中位于第一顶点集合与所述第二顶点集合的差集的顶点加入所述第二顶点集合,将所述目标连线加入所述第二连线集合;
(3)更新所述第一属性集和所述第二属性集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州昕华信息科技有限公司,未经杭州昕华信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911279107.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:图像重建方法、装置、CT系统及存储介质
- 下一篇:会话数据分类方法