[发明专利]一种页面聚类方法、装置、介质及设备在审
申请号: | 201911279107.3 | 申请日: | 2019-12-12 |
公开(公告)号: | CN111061878A | 公开(公告)日: | 2020-04-24 |
发明(设计)人: | 丁柳朋 | 申请(专利权)人: | 杭州昕华信息科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/957 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 310051 浙江省杭州市滨江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 页面 方法 装置 介质 设备 | ||
本发明公开了一种页面聚类方法、装置、介质及设备,包括获取待聚类的页面的页面属性集;根据所述页面属性集计算每个页面与其它页面的差异度,构建差异度图;获取聚类目标值N;根据所述差异度图和所述聚类目标值计算目标差异度;根据所述目标差异度对所述待聚类页面进行聚类,得到N个类,以使得位于相同类中的页面的差异度均不大于目标聚类差异度,而位于不同的类中的任意两个页面的差异度均大于所述目标聚类差异度。本发明可以快速精准的确定最适宜的目标差异度,并将目标差异度作为聚类基准,从而得到更为精准的聚类结果,为后续的数据分析奠定了基础。
技术领域
本发明涉及数据处理领域,尤其涉及一种页面聚类方法、装置及介质。
背景技术
大数据时代的数据分析的重要性日益凸显,如何从海量页面数据中通过数据聚类,数据信息提取快速准确地掌握数据中的信息,进而为用户提供更为人性化的服务是网页内容推送研究的重点内容之一。页面数据聚类作为网页数据信息提取的预处理步骤之一,对页面数据聚类的研究也从未止步。
发明内容
为了解决现有技术中存在的技术问题,本发明实施例提供一种页面聚类方法、装置、介质及设备。
一种页面聚类方法,所述方法包括:
获取待聚类的页面的页面属性集,所述页面属性集的元素对应一个页面的属性块,所述页面的属性块中包括多个页面子属性;
根据所述页面属性集计算每个页面与其它页面的差异度;
根据所述每个页面与其它页面的差异度构建差异度图,所述差异图中每个顶点表示一个页面,每个顶点和相关节点均有唯一连线,所述连线的权值即为所述顶点表示的页面与所述相关节点表示的页面之间的差异度,所述相关节点为与所述顶点相邻的其他顶点;
获取聚类目标值N,所述聚类目标值表示将待聚类页面划分的类的数量;
根据所述差异度图和所述聚类目标值计算目标差异度;
根据所述目标差异度对所述待聚类页面进行聚类,得到N个类,以使得位于相同类中的页面的差异度均不大于目标聚类差异度,而位于不同的类中的任意两个页面的差异度均大于所述目标聚类差异度。
优选的,每个页面的属性汇聚在属性块之中,并且各个页面均具备相同数量,相同内容的属性,只是属性值不同,但是属性值都经过了归一化处理,取值落在[0,1]之间。
优选的,任意两个页面A,B的差异度可以被标识为每个页面有n个属性,Ai,Bi分别标识A,B页面的第i个属性。
优选的,所述根据所述差异度图和所述聚类目标值计算目标差异度,包括:
根据所述差异度图获取第一顶点集合和第一连线集合;
初始化第二顶点集合和第二连线集合,所述第二顶点集合中有且仅有一个元素,所述第二连线集合为空;
构建第一属性集,所述第一属性集中的元素用于记录各个顶点的第一属性,所述第一属性表征所述顶点处于第一顶点集合与所述第二顶点集合的差集中时,与第二顶点集合中的各个相关元素所构成的连线的最小权值,所述相关元素对应的顶点为所述差异度图与所述顶点相邻的顶点;
构建第二属性集,所述第二属性集中的元素用于记录各个顶点的第二属性,所述第二属性表征当所述顶点处于第一顶点集合与所述第二顶点集合的差集中时,与第二顶点集合中的各个相关元素所钩成的具有最小权值的连线的中有别于所述顶点的另一个顶点,所述相关元素对应的顶点为所述差异度图与所述顶点相邻的顶点;
执行预设操作,更新第二顶点集合、第二连线集合、第一属性集和第二属性集直至达到预设要求。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州昕华信息科技有限公司,未经杭州昕华信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911279107.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:图像重建方法、装置、CT系统及存储介质
- 下一篇:会话数据分类方法