[发明专利]基于项频度和权值的中文词间矩阵加权关联规则挖掘方法有效

申请号：	201810216894.6	申请日：	2018-03-16
公开（公告）号：	CN108416442B	公开（公告）日：	2021-10-29
发明（设计）人：	黄名选	申请（专利权）人：	广西财经学院
主分类号：	G06N5/02	分类号：	G06N5/02;G06F16/33;G06F16/31
代理公司：	广西南宁公平知识产权代理有限公司 45104	代理人：	黄春莲
地址：	530000 广西壮族***	国省代码：	广西;45
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于频度文词矩阵加权关联规则挖掘方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于项频度和权值的中文词间矩阵加权关联规则挖掘方法，其特征在于，首先将待挖掘的中文文档进行去除中文停用词、提取特征词并计算特征词权值的预处理，分别构建中文特征词库和中文文档索引库；采用基于项频度和权值的矩阵加权支持度计算方法挖掘中文特征词矩阵加权频繁项集，得到中文特征词矩阵加权频繁项集集合；采用置信度-兴趣度评价框架从所述中文特征词矩阵加权频繁项集中挖掘中文特征词矩阵加权关联规则模式；

所述采用基于项频度和权值的矩阵加权支持度计算方法挖掘中文特征词矩阵加权频繁项集具体步骤为：

(1)挖掘中文特征词矩阵加权频繁1_项集L₁：

(1.1)从所述中文特征词库中提取中文特征词作为候选1_项集C₁；

(1.2)扫描中文文档索引库累加中文文档索引库中所有特征词权值的总和W，统计中文特征词候选1_项集C₁在中文文档索引库的权值及其频度按公式(2)计算C₁的矩阵加权支持度mSup(C₁)；

公式(2)中，n为中文文档索引库中文档总篇数；

(1.3)如果步骤(1.2)所得候选1_项集C₁的矩阵加权支持度mSup(C₁)不小于最小支持度阈值ms，则候选1_项集C₁就是中文特征词矩阵加权频繁1_项集L₁，添加到中文特征词矩阵加权频繁项集集合FIS；

(2)挖掘中文特征词矩阵加权频繁k_项集L_k，k≥2，具体步骤：

(2.1)采用Apriori连接方法将中文特征词矩阵加权频繁(k-1)_项集L_k-1进行自连接得到中文特征词矩阵加权候选k_项集C_k，k≥2；

(2.2)扫描中文文档索引库累加中文特征词候选k_项集C_k在中文文档索引库中的权值统计C_k在中文文档索引库中的频度按公式(3)计算中文特征词矩阵加权候选k_项集C_k的矩阵加权支持度mSup(C_k)；

公式(3)中，n和W同步骤(1.2)，为中文特征词矩阵加权候选k_项集C_k的项集长度；

(2.3)如果中文特征词矩阵加权候选k_项集C_k的矩阵加权支持度mSup(C_k)大于或者等于最小支持度阈值ms，则C_k为中文特征词矩阵加权频繁k_项集L_k，添加到中文特征词矩阵加权频繁项集集合FIS；

(2.4)若中文特征词矩阵加权频繁k_项集L_k为空集，则矩阵加权频繁项集挖掘结束，否则，k加1后转入步骤(2.1)继续循环；

所述采用置信度-兴趣度评价框架从所述中文特征词矩阵加权频繁项集中挖掘中文特征词矩阵加权关联规则模式的具体步骤如下：

对于所述中文特征词矩阵加权频繁项集集合FIS中每一个频繁k_项集L_k，k≥2：

(1)找出频繁k_项集L_k的所有真子集项集，得到L_k的真子集项集集合；

(2)任意取出L_k的真子集项集集合中两个真子集项集TS₁和TS₂，且

(3)按公式(4)计算中文特征词矩阵加权兴趣度MInt(TS₁,TS₂)，如果MInt(TS₁,TS₂)≥最小兴趣度阈值mi，则：

按公式(5)计算中文特征词矩阵加权置信度MConf(TS₁→TS₂)，若MConf(TS₁→TS₂)≥最小置信度阈值mc，则关联规则TS₁→TS₂是强中文特征词矩阵加权关联规则，并加入到中文特征词矩阵加权关联规则集合mAR；

按公式(6)计算中文特征词矩阵加权置信度MConf(TS₂→TS₁)，若MConf(TS₂→TS₁)≥最小置信度阈值mc，则关联规则TS₂→TS₁是强中文特征词矩阵加权关联规则，并加入到中文特征词矩阵加权关联规则集合mAR；

式(4)-式(6)中，k₁、k₂和k₁₂分别为项集TS₁、TS₂及项集(TS₁,TS₂)的项集长度，n₁、n₂和n₁₂分别为项集TS₁、TS₂以及项集(TS₁,TS₂)在中文文档索引库中出现的频度，w₁、w₂和w₁₂分别为项集TS₁、TS₂以及项集(TS₁,TS₂)在中文文档索引库中的所累加得到的项集权值总和；

(4)返回步骤(2)再顺序进行，直到L_k的真子集集合中每个真子集项集当且仅当被取出一次，然后从所述中文特征词矩阵加权频繁项集集合FIS中重新取出新的频繁k_项集L_k，转入步骤(1)进行新一轮中文特征词矩阵加权关联规则挖掘，直到所述中文特征词矩阵加权频繁项集集合FIS中每一个频繁k_项集L_k都被取出挖掘为止。

2.如权利要求1所述的基于项频度和权值的中文词间矩阵加权关联规则挖掘方法，其特征在于，所述特征词权值的计算方法为按公式(1)进行计算：

式(1)中，w_ij表示中文文档d_i中中文特征词t_j的权值，tf_j,i表示中文特征词t_j在中文文档d_i中的出现次数，df_j表示含有中文特征词t_j的中文文档数量，N表示中文文档索引库中总的文档数量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广西财经学院，未经广西财经学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810216894.6/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于遗传算法的舰船对岸打击火力分配方法
下一篇：一种故障诊断方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N5-00 利用基于知识的模式的计算机系统
G06N5-02 .知识表达
G06N5-04 .推理方法或设备

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于项频度和权值的中文词间矩阵加权关联规则挖掘方法有效

专利文献下载