[发明专利]一种基于网址结构的网络论坛页面聚类方法及设备有效
申请号: | 201710598015.6 | 申请日: | 2017-07-20 |
公开(公告)号: | CN107402998B | 公开(公告)日: | 2020-01-31 |
发明(设计)人: | 王红;刘锐 | 申请(专利权)人: | 山东师范大学 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/35 |
代理公司: | 37221 济南圣达知识产权代理有限公司 | 代理人: | 张勇 |
地址: | 250014 *** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及本发明公开了一种基于网址结构的网络论坛聚类方法及设备,该方法涉及数据挖掘领域,是为解决大规模网页分类问题而提出的。该方法从网址总体中抽取部分样本,利用网络论坛网址高度结构化的特性,对每个网址进行结构划分,构造结构向量,使用本发明提出的距离函数评估结构向量之间的距离,接着使用密度峰值聚类方法对样本结构向量进行聚类分析,提取出每簇的特征结构,构造用于描述簇中所有样本网址的解析器,用于对总体中剩余网址进行解析和分类。经实验验证,本方法具有较高的准确度和执行效率。 | ||
搜索关键词: | 一种 基于 网址 结构 网络 论坛 页面 方法 设备 | ||
【主权项】:
1.一种基于网址结构的网络论坛页面聚类方法,其特征是:该方法包括以下步骤:/n(1)按照网页所属域名对所有网页进行初步分组,对于初步分组后的每一组网页进行抽样组成样本,并在样本中插入带标记的待筛选网页形成样本网页;/n(2)将样本网页的除域名外的网址根据符号进行分割,对分割后的每一部分网址的类别和内容进行编号,构造出结构块;/n(3)将同一网址的各个结构块按顺序依次排列,构成该网址的结构向量;计算样本网页中的任意两个结构向量的相异度,和网页样本中最小较高密度结构向量相异度即任意一个结构向量与大于其局部密度且与其相异度最小的结构向量的相异度;分别作为横坐标和纵坐标构造决策图,确定簇中心,采用广度优先结构向量归属确定法确定非簇中心结构向量的归属簇;/n(4)根据步骤(3)的决策图构造出解析规则,将解析规则应用于初步分组后的每一组网页中的非样本网页,进行网页聚类筛选,并采用评价指标进行评价;/n所述步骤(4)中构造出解析规则的具体步骤为:/n在决策图中,选出样本网页中插入的带标记的待筛选网页所在的簇;/n在选出的簇中,对于该网页结构向量中的每个位置,记录所有该位置的结构块的类别和内容,当出现超过5种不同的内容时,不再记录内容,仅记录类别;/n得到解析规则。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710598015.6/,转载请声明来源钻瓜专利网。