[发明专利]一种基于主题词条的跨类型数据的概率聚类方法无效

申请号：	200810229043.1	申请日：	2008-11-26
公开（公告）号：	CN101408901A	公开（公告）日：	2009-04-15
发明（设计）人：	王国仁;于亚新;王波涛;丁国辉;王斌;赵相国;赵宇海;信俊昌;乔百友;韩东红;张恩德;李淼	申请（专利权）人：	东北大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	沈阳东大专利代理有限公司	代理人：	李运萍
地址：	110004辽宁省***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于主题词条类型数据概率方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于主题词条的跨类型数据的概率聚类方法，其特征在于该方法包括以下步骤：

(1)定义主题词条的类型；

对一个跨类型数据d，将其表示为词条的集合，对每个词条赋权重后，按照权重大小分为三类词条：主题相关词条r、主题半相关词条s和主题不相关词条u；

(2)对每类词条分配概率；

主题相关词条的主题概率为1，主题不相关词条的主题概率为0，主题半相关词条的主题概率p(sⁱ)＝w_si/w_max，其中w_si为半相关词条sⁱ的权重，w_max为跨类型数据d中所有词条的权重的最大值；

(3)用概率表示数据主题；

将跨类型数据d表示成主题相关词条r的一个确定集合，记作d(r¹，r²，...，rⁿ)，其中rⁱ表示第i个主题相关词条，再将所有的主题半相关词条s追加到跨类型数据d的确定集合中，跨类型数据d的确定集合在加入主题半相关词条s后，转换成多种描述形式，而每一种描述形式有一个概率其中k表示一条数据中主题半相关词条的数量，m＝1，2，...，2^k，d_m是d的第m个描述形式，如果sⁱ出现在d_m中，则P_i＝p(sⁱ)，否则P_i＝1-p(sⁱ)；