[发明专利]基于相关系数的中文词间加权正负模式挖掘方法及系统有效

专利信息
申请号: 201410483377.7 申请日: 2014-09-22
公开(公告)号: CN104216874B 公开(公告)日: 2017-03-29
发明(设计)人: 黄名选 申请(专利权)人: 广西财经学院
主分类号: G06F17/27 分类号: G06F17/27;G06F17/30
代理公司: 广西南宁明智专利商标代理有限责任公司45106 代理人: 黎明天
地址: 530003 广西*** 国省代码: 广西;45
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 相关系数 文词 加权 正负 模式 挖掘 方法 系统
【权利要求书】:

1.一种基于相关系数的中文词间加权正负模式挖掘方法,其特征在于,包括如下步骤:

(1)中文文本预处理:将待处理的中文文本信息数据进行预处理:中文文本分词去除停用词、提取特征词及其权值计算,构建基于向量空间模型的文本信息数据库和特征词项目库;

(2)挖掘中文特征词矩阵加权频繁1-项集L1:从项目库中取出候选1-项集C1,累加C1项集权值,计算其支持度mwS(C1),与ms比较,从C1中挖掘矩阵加权频繁1-项集L1加入mwPIS;

(3)挖掘有趣的中文特征词矩阵加权频繁i-项集Li和负i-项集Ni(所述的i≥2),包括以下(3.1) 步至(3.3) 步:

(3.1)频繁(i-1)-项集Li-1进行Apriori连接生成候选i_项集Ci,累加Ci的权值以及计算其mwS(Ci);

 (3.2)若候选i_项集Ci支持度mwS(Ci)大于或等于最小支持度阈值ms,计算频繁项集关联度mwFIR(Ci),将其关联度mwFIR(Ci)大于或者等于最小频繁关联度阈值mFr的有趣矩阵加权频繁i-项集Li加入频繁项集集合mwPIS;

(3.3) 若候选i_项集Ci支持度mwS(Ci)小于最小支持度阈值ms,计算负项集关联度mwNIR(Ci),将其关联度mwNIR(Ci)大于或者等于最小负项集关联度阈值mNr的有趣矩阵加权负i-项集Ni加入负项集集合mwNIS;

(4)从中文特征词频繁项集集合mwPIS中挖掘有效的中文特征词矩阵加权正负关联规则模式包括以下(4.1) 步至(4.6) 步:

(4.1)从中文特征词频繁项集集合mwPIS中取出特征词频繁项集Li,找出Li的所有真子集;

(4.2)从Li的真子集集合中任意取出两个真子集I1和I2,当I1和I2的支持度mwS (I1)和 mwS (I2)都大于或等于ms,并且I1I2=, I1I2=Li,计算矩阵加权频繁项集(I1,I2)的相关系数mwPCC(I1,I2);

(4.3)当矩阵加权频繁项集(I1,I2)的相关系数mwPCC(I1,I2)大于或等于相关系数阈值时,即mwPCC(I1,I2)≥,计算VMWAR(I1,I2, mc, mi)的值,若其值等于1,则得出矩阵加权中文特征词强关联规则I1→I2 ,加入mwPAR;计算VMWAR(﹁I1,﹁I2, mc, mi) 的值,若其值等于1,则得出矩阵加权中文特征词强负关联规则﹁I1→﹁I2 ,加入mwNAR;

(4.4)当矩阵加权项集(I1,I2)的相关系数mwPCC(I1,I2)小于-时,即,mwPCC(I1,I2)≤-,计算VMWAR(I1,﹁I2, mc, mi) 的值,若其值等于1,则得出矩阵加权中文特征词强负关联规则I1→﹁I2,加入mwNAR;计算VMWAR(﹁I1,I2, mc, mi) 的值,若其值等于1,则得出矩阵加权中文特征词强负关联规则﹁I1→I2 ,加入mwNAR;

 (4.5) 继续(4.2)步骤,当特征词频繁项集Li的真子集集合中每个真子集都被取出一次,而且仅能取出一次,则转入步骤(4.6)步;

(4.6) 继续(4.1)步骤,当特征词频繁项集集合中每个频繁项集Li都被取出一次,而且仅能取出一次,则(4)步运行结束,转入(5)步;

(5)从负项集集合mwNIS中挖掘有效的中文特征词矩阵加权负关联规则模式包括以下(5.1) 步至(5.6) 步:

(5.1)从中文特征词负项集集合mwNIS中取出特征词负项集Ni,找出Ni的所有真子集;

(5.2)从Ni的真子集集合中任意取出两个真子集I1和I2,当I1和I2的支持度mwS (I1)和 mwS (I2)都大于或等于ms,并且I1I2=, I1I2=Ni,计算矩阵加权负项集(I1,I2)的相关系数mwPCC(I1,I2);

(5.3)当矩阵加权负项集(I1,I2)的相关系数mwPCC(I1,I2)大于或等于相关系数阈值时,即mwPCC(I1,I2)≥,计算VMWAR(﹁I1,﹁I2, mc, mi) 的值,若其值等于1,则得出矩阵加权中文特征词强负关联规则﹁I1→﹁I2 ,加入mwNAR;

(5.4)当矩阵加权负项集(I1,I2)的相关系数mwPCC(I1,I2)小于或等于-时,即,mwPCC(I1,I2)≤-,计算VMWAR(I1,﹁I2, mc, mi) 的值,若其值等于1,则得出矩阵加权中文特征词强负关联规则I1→﹁I2,加入mwNAR;计算VMWAR(﹁I1,I2, mc, mi) 的值,若其值等于1,则得出矩阵加权中文特征词强负关联规则﹁I1→I2 ,加入mwNAR;

所述的ms为最小支持度阈值,mc为最小置信度阈值,mi为最小兴趣度阈值;

(5.5) 继续(5.2)步骤,当特征词负项集Ni的真子集集合中每个真子集都被取出一次,而且仅能取出一次,则转入步骤(5.6)步;

(5.6) 继续(5.1)步骤,当特征词频繁项集集合中每个负项集Ni都被取出一次,而且仅能取出一次,则(5)步运行结束;

至此,矩阵加权中文特征词正负模式挖掘结束;

所述的ms为最小支持度阈值,mc为最小置信度阈值,mi为最小兴趣度阈值,为相关系数阈值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西财经学院,未经广西财经学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410483377.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top