[发明专利]基于相关系数的中文词间加权正负模式挖掘方法及系统有效
申请号: | 201410483377.7 | 申请日: | 2014-09-22 |
公开(公告)号: | CN104216874B | 公开(公告)日: | 2017-03-29 |
发明(设计)人: | 黄名选 | 申请(专利权)人: | 广西财经学院 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 广西南宁明智专利商标代理有限责任公司45106 | 代理人: | 黎明天 |
地址: | 530003 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 相关系数 文词 加权 正负 模式 挖掘 方法 系统 | ||
1.一种基于相关系数的中文词间加权正负模式挖掘方法,其特征在于,包括如下步骤:
(1)中文文本预处理:将待处理的中文文本信息数据进行预处理:中文文本分词去除停用词、提取特征词及其权值计算,构建基于向量空间模型的文本信息数据库和特征词项目库;
(2)挖掘中文特征词矩阵加权频繁1-项集L1:从项目库中取出候选1-项集C1,累加C1项集权值,计算其支持度mwS(C1),与ms比较,从C1中挖掘矩阵加权频繁1-项集L1加入mwPIS;
(3)挖掘有趣的中文特征词矩阵加权频繁i-项集Li和负i-项集Ni(所述的i≥2),包括以下(3.1) 步至(3.3) 步:
(3.1)频繁(i-1)-项集Li-1进行Apriori连接生成候选i_项集Ci,累加Ci的权值以及计算其mwS(Ci);
(3.2)若候选i_项集Ci支持度mwS(Ci)大于或等于最小支持度阈值ms,计算频繁项集关联度mwFIR(Ci),将其关联度mwFIR(Ci)大于或者等于最小频繁关联度阈值mFr的有趣矩阵加权频繁i-项集Li加入频繁项集集合mwPIS;
(3.3) 若候选i_项集Ci支持度mwS(Ci)小于最小支持度阈值ms,计算负项集关联度mwNIR(Ci),将其关联度mwNIR(Ci)大于或者等于最小负项集关联度阈值mNr的有趣矩阵加权负i-项集Ni加入负项集集合mwNIS;
(4)从中文特征词频繁项集集合mwPIS中挖掘有效的中文特征词矩阵加权正负关联规则模式,包括以下(4.1) 步至(4.6) 步:
(4.1)从中文特征词频繁项集集合mwPIS中取出特征词频繁项集Li,找出Li的所有真子集;
(4.2)从Li的真子集集合中任意取出两个真子集I1和I2,当I1和I2的支持度mwS (I1)和 mwS (I2)都大于或等于ms,并且I1I2=, I1I2=Li,计算矩阵加权频繁项集(I1,I2)的相关系数mwPCC(I1,I2);
(4.3)当矩阵加权频繁项集(I1,I2)的相关系数mwPCC(I1,I2)大于或等于相关系数阈值时,即mwPCC(I1,I2)≥,计算VMWAR(I1,I2, mc, mi)的值,若其值等于1,则得出矩阵加权中文特征词强关联规则I1→I2 ,加入mwPAR;计算VMWAR(﹁I1,﹁I2, mc, mi) 的值,若其值等于1,则得出矩阵加权中文特征词强负关联规则﹁I1→﹁I2 ,加入mwNAR;
(4.4)当矩阵加权项集(I1,I2)的相关系数mwPCC(I1,I2)小于-时,即,mwPCC(I1,I2)≤-,计算VMWAR(I1,﹁I2, mc, mi) 的值,若其值等于1,则得出矩阵加权中文特征词强负关联规则I1→﹁I2,加入mwNAR;计算VMWAR(﹁I1,I2, mc, mi) 的值,若其值等于1,则得出矩阵加权中文特征词强负关联规则﹁I1→I2 ,加入mwNAR;
(4.5) 继续(4.2)步骤,当特征词频繁项集Li的真子集集合中每个真子集都被取出一次,而且仅能取出一次,则转入步骤(4.6)步;
(4.6) 继续(4.1)步骤,当特征词频繁项集集合中每个频繁项集Li都被取出一次,而且仅能取出一次,则(4)步运行结束,转入(5)步;
(5)从负项集集合mwNIS中挖掘有效的中文特征词矩阵加权负关联规则模式,包括以下(5.1) 步至(5.6) 步:
(5.1)从中文特征词负项集集合mwNIS中取出特征词负项集Ni,找出Ni的所有真子集;
(5.2)从Ni的真子集集合中任意取出两个真子集I1和I2,当I1和I2的支持度mwS (I1)和 mwS (I2)都大于或等于ms,并且I1I2=, I1I2=Ni,计算矩阵加权负项集(I1,I2)的相关系数mwPCC(I1,I2);
(5.3)当矩阵加权负项集(I1,I2)的相关系数mwPCC(I1,I2)大于或等于相关系数阈值时,即mwPCC(I1,I2)≥,计算VMWAR(﹁I1,﹁I2, mc, mi) 的值,若其值等于1,则得出矩阵加权中文特征词强负关联规则﹁I1→﹁I2 ,加入mwNAR;
(5.4)当矩阵加权负项集(I1,I2)的相关系数mwPCC(I1,I2)小于或等于-时,即,mwPCC(I1,I2)≤-,计算VMWAR(I1,﹁I2, mc, mi) 的值,若其值等于1,则得出矩阵加权中文特征词强负关联规则I1→﹁I2,加入mwNAR;计算VMWAR(﹁I1,I2, mc, mi) 的值,若其值等于1,则得出矩阵加权中文特征词强负关联规则﹁I1→I2 ,加入mwNAR;
所述的ms为最小支持度阈值,mc为最小置信度阈值,mi为最小兴趣度阈值;
(5.5) 继续(5.2)步骤,当特征词负项集Ni的真子集集合中每个真子集都被取出一次,而且仅能取出一次,则转入步骤(5.6)步;
(5.6) 继续(5.1)步骤,当特征词频繁项集集合中每个负项集Ni都被取出一次,而且仅能取出一次,则(5)步运行结束;
至此,矩阵加权中文特征词正负模式挖掘结束;
所述的ms为最小支持度阈值,mc为最小置信度阈值,mi为最小兴趣度阈值,为相关系数阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西财经学院,未经广西财经学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410483377.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:激光耦光焊接设备
- 下一篇:钢格栅板压焊机熔接电流控制系统