[发明专利]文档和图案分群的方法及装置无效
申请号: | 200410035203.0 | 申请日: | 2004-03-05 |
公开(公告)号: | CN1530857A | 公开(公告)日: | 2004-09-22 |
发明(设计)人: | 川谷隆彦 | 申请(专利权)人: | 惠普开发有限公司 |
主分类号: | G06F17/21 | 分类号: | G06F17/21 |
代理公司: | 中国专利代理(香港)有限公司 | 代理人: | 吴立明;王勇 |
地址: | 美国德*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 以文档(或图案)分群的方式,得到了群集的正确数目和每个文档(或图案)到所述正确的群集的准确指定。对描述相同主题(或对象)的文档(或图案)进行分组,这样属于同一群集的文档(或图案)组具有一些公共性。每个主题(或对象)都具有不同的项(或对象特征)或项(或对象特征)对。当获得了每个文档(或图案)到一指定群集的接近度时,提取并利用关于所述指定群集的公共信息,同时排除了与所述指定群集相同的项(或对象特征)或项(或对象特征)对的影响。 | ||
搜索关键词: | 文档 图案 分群 方法 装置 | ||
【主权项】:
1.一种在输入的文档(或图案)集中根据他们之间的关系对文档(或图案)进行分群的方法,其中每个所述文档(或图案)都具有一个或多个文档(或图案)段,包括,(a)根据项在每个文档(或图案)中的出现的频率,为输入文档(或图案)的集合获得一个文档(或图案)频率矩阵;(b)从没有包括在那一刻所存在的任一组中的剩余文档(或图案)中选择一个种子文档(或图案),并利用所述种子文档(或图案)构建一个所述初始状态的当前群集;(c)利用基于所述输入文档(或图案)集的文档(或图案)频率矩阵的信息,为所述输入文档(或图案)集中的每个文档(或图案),获得和当前组相比较的文档(或图案)公共性,基于当前群集中的所述文档(或图案)的文档(或图案)频率矩阵的信息,及基于所述当前组的公共共同出现率矩阵的信息,并使文档(或图案)公共性高于临时地属于当前群集的一个阈值;(d)重复步骤(c),直到临时地属于当前群集的文档(或图案)数变得与在先前的重复中的相同;(e)重复步骤(b)到(d),直到满足一指定收敛条件;和(f)根据每个文档(或图案)与每个群集相比较的文档(或图案)公共性,判定每个文档(或图案)所属于的群集。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于惠普开发有限公司,未经惠普开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200410035203.0/,转载请声明来源钻瓜专利网。