[发明专利]一种标签共现的标签聚类方法在审

专利信息
申请号: 201410457010.8 申请日: 2014-09-10
公开(公告)号: CN104216993A 公开(公告)日: 2014-12-17
发明(设计)人: 李鹏;王娅丹;金瑜;刘宇;何亨 申请(专利权)人: 武汉科技大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人: 严彦
地址: 430081 *** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提出一种标签共现的标签聚类方法,为了提高聚类有效性,定义标注矩阵、共同标注矩阵、标签重要度矩阵、相似度矩阵,用于通过对标签共现信息的提取,确定标签的特征向量;通过特征向量的提取计算相似度,将传统聚类算法中用几何距离计算对象与中心对象的距离改为用皮尔森相关系数计算;提出结合K-means聚类算法对标签进行聚类的标签共现聚类方法。本发明所提供聚类方法效果要好于其它的聚类方法,具有良好的有效性和可行性。
搜索关键词: 一种 标签 方法
【主权项】:
一种标签共现的标签聚类方法,其特征在于:包括首先进行以下定义,一、定义一个标注矩阵,该矩阵Unxm是n×m型矩阵,n为标签个数,m为资源个数,矩阵中的元素uiq表示标签ti标注资源rq的频度,此处的i取值为1,2,…,n,q取值为1,2,…,m;二、定义一个共同标注矩阵,该矩阵Cn×n是n×n型矩阵,n为标签个数,矩阵中的元素cij表示标签ti和标签tj共现频度,如下式,<mrow><msub><mi>c</mi><mi>ij</mi></msub><mo>=</mo><mfrac><mrow><mi>W</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>i</mi></msub><mo>,</mo><msub><mi>t</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow><mrow><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mi>W</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>i</mi></msub><mo>,</mo><msub><mi>t</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow>此处的i取值为1,2,…,n,j取值为1,2,…,n;其中,W(ti,tj)表示标签ti和标签tj共同出现的次数,当i=j时,W(ti,tj)为标签ti标注过的资源数;三、定义一个标签重要度矩阵,该矩阵An×n是n×n型矩阵,n为标签个数,矩阵中的元素aij表示标签ti在所有m个资源内的重要度,即<mrow><msub><mi>a</mi><mi>ij</mi></msub><mo>=</mo><msub><mi>c</mi><mi>ij</mi></msub><mo>&times;</mo><mi>lg</mi><mrow><mo>(</mo><mfrac><mi>n</mi><mrow><mn>1</mn><mo>+</mo><mi>&Gamma;</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow></mfrac><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow>此处的i取值为1,2,…,n,j取值为1,2,…,n;其中,Γ(ti)表示在m个资源中,与标签ti共同出现过的标签的个数;四、定义一个相似度矩阵,该矩阵Sn×n是n×n型矩阵,n为标签个数,矩阵中的元素sij表示标签ti和标签tj的特征向量相似度,即<mrow><msub><mi>s</mi><mi>ij</mi></msub><mo>=</mo><mfrac><mrow><mi>n</mi><mo>&CenterDot;</mo><mi>&Sigma;</mi><msub><mi>A</mi><mi>i</mi></msub><mo>&CenterDot;</mo><msub><mi>A</mi><mi>j</mi></msub><mo>-</mo><mi>&Sigma;</mi><msub><mi>A</mi><mi>i</mi></msub><mo>&CenterDot;</mo><mi>&Sigma;</mi><msub><mi>A</mi><mi>j</mi></msub></mrow><mrow><msqrt><mi>n</mi><mo>&CenterDot;</mo><mi>&Sigma;</mi><msub><msup><mi>A</mi><mn>2</mn></msup><mi>i</mi></msub><mo>-</mo><msup><mrow><mo>(</mo><mi>&Sigma;</mi><msub><mi>A</mi><mi>i</mi></msub><mo>)</mo></mrow><mn>2</mn></msup></msqrt><mo>&CenterDot;</mo><msqrt><mi>n</mi><mo>&CenterDot;</mo><mi>&Sigma;</mi><msup><msub><mi>A</mi><mi>j</mi></msub><mn>2</mn></msup><mo>-</mo><msup><mrow><mo>(</mo><mi>&Sigma;</mi><msub><mi>A</mi><mi>j</mi></msub><mo>)</mo></mrow><mn>2</mn></msup></msqrt></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow>其中,Ai、Aj表示标签重要度矩阵中的第i、j个行向量;然后基于定义执行以下流程,步骤1,输入聚类的类别数目K,标签个数n,标签集合T={t1,t2….tn},资源集合R,和标签标注资源的关系集合A;初始化当前处理标签序号i取值为1;转到步骤2;步骤2,计算标注矩阵的元素uiq,得到标签与资源之间的关联,进一步得到标签ti和标签tj共同出现的次数W(ti,tj),转到步骤3;步骤3,根据式(1),计算表示共现频度的元素cij,转到步骤4;步骤4,根据式(2),计算表示重要度的元素aij,转到步骤5;步骤5,得到标签ti的特征向量Ai(ai1,ai2….ain),转到步骤6;步骤6,令i=i+1,判断ti是否属于标签集合T,如果属于则返回步骤2,否则转到步骤7;步骤7,选择K个标签作为初始的聚类中心,转到步骤8;步骤8,初始定义变量newJ=0,oldJ=‑1,转到步骤9;步骤9,计算newJ‑oldJ的绝对值,如果结果大于等于0.00001,.转到步骤10,否则转到步骤14;步骤10,根据式(3),计算每个标签与K个聚类中心分别的相似度sij,转到步骤11;步骤11,根据计算出来的相似度,对每个标签分别判断与哪个聚类中心的相似度最大并将该标签划分到相应的类别中,转到步骤12;步骤12,计算每个类别中所有标签特征向量的平均值,作为该类别新的聚类中心,转到步骤13;步骤13,令oldJ=newJ,计算新的准则函数值赋值给newJ,转到步骤9;步骤14,输出n个标签的聚类结果,结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉科技大学,未经武汉科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201410457010.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top