[发明专利]文档和图案分群的方法及装置无效

专利信息
申请号: 200410035203.0 申请日: 2004-03-05
公开(公告)号: CN1530857A 公开(公告)日: 2004-09-22
发明(设计)人: 川谷隆彦 申请(专利权)人: 惠普开发有限公司
主分类号: G06F17/21 分类号: G06F17/21
代理公司: 中国专利代理(香港)有限公司 代理人: 吴立明;王勇
地址: 美国德*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要: 以文档(或图案)分群的方式,得到了群集的正确数目和每个文档(或图案)到所述正确的群集的准确指定。对描述相同主题(或对象)的文档(或图案)进行分组,这样属于同一群集的文档(或图案)组具有一些公共性。每个主题(或对象)都具有不同的项(或对象特征)或项(或对象特征)对。当获得了每个文档(或图案)到一指定群集的接近度时,提取并利用关于所述指定群集的公共信息,同时排除了与所述指定群集相同的项(或对象特征)或项(或对象特征)对的影响。
搜索关键词: 文档 图案 分群 方法 装置
【主权项】:
1.一种在输入的文档(或图案)集中根据他们之间的关系对文档(或图案)进行分群的方法,其中每个所述文档(或图案)都具有一个或多个文档(或图案)段,包括,(a)根据项在每个文档(或图案)中的出现的频率,为输入文档(或图案)的集合获得一个文档(或图案)频率矩阵;(b)从没有包括在那一刻所存在的任一组中的剩余文档(或图案)中选择一个种子文档(或图案),并利用所述种子文档(或图案)构建一个所述初始状态的当前群集;(c)利用基于所述输入文档(或图案)集的文档(或图案)频率矩阵的信息,为所述输入文档(或图案)集中的每个文档(或图案),获得和当前组相比较的文档(或图案)公共性,基于当前群集中的所述文档(或图案)的文档(或图案)频率矩阵的信息,及基于所述当前组的公共共同出现率矩阵的信息,并使文档(或图案)公共性高于临时地属于当前群集的一个阈值;(d)重复步骤(c),直到临时地属于当前群集的文档(或图案)数变得与在先前的重复中的相同;(e)重复步骤(b)到(d),直到满足一指定收敛条件;和(f)根据每个文档(或图案)与每个群集相比较的文档(或图案)公共性,判定每个文档(或图案)所属于的群集。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于惠普开发有限公司,未经惠普开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/200410035203.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top