[发明专利]基于相关系数的中文词间加权正负模式挖掘方法及系统有效

专利信息
申请号: 201410483377.7 申请日: 2014-09-22
公开(公告)号: CN104216874B 公开(公告)日: 2017-03-29
发明(设计)人: 黄名选 申请(专利权)人: 广西财经学院
主分类号: G06F17/27 分类号: G06F17/27;G06F17/30
代理公司: 广西南宁明智专利商标代理有限责任公司45106 代理人: 黎明天
地址: 530003 广西*** 国省代码: 广西;45
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种基于相关系数的中文词间加权正负模式挖掘方法及系统,利用中文文本信息预处理模块进行中文文本预处理;利用中文特征词候选项集生成模块生成特征词候选1‑项集,从i项集(i≥2)起,由候选(i‑1)‑项集产生候选i‑项集,计算其支持度,得到频繁项集和负项集,根据项集的关联度进行项集剪枝,得到有趣的特征词频繁项集和负项集;利用中文特征词正负关联规则产生及结果显示模块计算关联规则兴趣度和置信度,从频繁项集和负项集中挖掘有趣的特征词正负关联规则模式,显示给用户。本发明能避免无效和无趣的中文特征词关联模式出现,挖掘效率得到很大提高,其关联规则模式运用于中文文本信息检索领域实现查询扩展,提高信息检索查询性能。
搜索关键词: 基于 相关系数 文词 加权 正负 模式 挖掘 方法 系统
【主权项】:
一种基于相关系数的中文词间加权正负模式挖掘方法,其特征在于,包括如下步骤:(1)中文文本预处理:将待处理的中文文本信息数据进行预处理:中文文本分词去除停用词、提取特征词及其权值计算,构建基于向量空间模型的文本信息数据库和特征词项目库;(2)挖掘中文特征词矩阵加权频繁1‑项集L1:从项目库中取出候选1‑项集C1,累加C1项集权值,计算其支持度mwS(C1),与最小支持度阈值ms比较,从C1中挖掘矩阵加权频繁1‑项集L1加入频繁项集集合mwPIS;(3)挖掘有趣的中文特征词矩阵加权频繁i‑项集Li和负i‑项集Ni,包括以下(3.1)步至(3.3)步;所述的i≥2,(3.1)频繁(i‑1)‑项集Li‑1进行Apriori连接生成候选i_项集Ci,累加Ci的权值以及计算其mwS(Ci);(3.2)若候选i_项集Ci支持度mwS(Ci)大于或等于最小支持度阈值ms,计算频繁项集关联度mwFIR(Ci),将其关联度mwFIR(Ci)大于或者等于最小频繁关联度阈值mFr的有趣矩阵加权频繁i‑项集Li加入频繁项集集合mwPIS;(3.3)若候选i_项集Ci支持度mwS(Ci)小于最小支持度阈值ms,计算负项集关联度mwNIR(Ci),将其关联度mwNIR(Ci)大于或者等于最小负项集关联度阈值mNr的有趣矩阵加权负i‑项集Ni加入负项集集合mwNIS;(4)从中文特征词频繁项集集合mwPIS中挖掘有效的中文特征词矩阵加权正负关联规则模式,包括以下(4.1)步至(4.6)步:(4.1)从中文特征词频繁项集集合mwPIS中取出特征词频繁项集Li,找出Li的所有真子集;(4.2)从Li的真子集集合中任意取出两个真子集I1和I2,当I1和I2的支持度mwS(I1)和mwS(I2)都大于或等于ms,并且I1∪I2=Li,计算矩阵加权频繁项集(I1,I2)的相关系数mwPCC(I1,I2);(4.3)当矩阵加权频繁项集(I1,I2)的相关系数mwPCC(I1,I2)大于或等于相关系数阈值β时,即mwPCC(I1,I2)≥β,计算有效的矩阵加权关联规则I1→I2评估值即VMWAR(I1,I2,mc,mi)的值,若其值等于1,则得出矩阵加权中文特征词强关联规则I1→I2,加入矩阵加权正关联规则集合mwPAR;计算有效的矩阵加权负关联规则﹁I1→﹁I2评估值即VMWAR(﹁I1,﹁I2,mc,mi)的值,若其值等于1,则得出矩阵加权中文特征词强负关联规则﹁I1→﹁I2,加入矩阵加权负关联规则集合mwNAR;(4.4)当矩阵加权项集(I1,I2)的相关系数mwPCC(I1,I2)小于或者等于‑β时,即,mwPCC(I1,I2)≤-β,计算有效的矩阵加权负关联规则I1→﹁I2评估值即VMWAR(I1,﹁I2,mc,mi)的值,若其值等于1,则得出矩阵加权中文特征词强负关联规则I1→﹁I2,加入矩阵加权负关联规则集合mwNAR;计算有效的矩阵加权负关联规则﹁I1→I2评估值即VMWAR(﹁I1,I2,mc,mi)的值,若其值等于1,则得出矩阵加权中文特征词强负关联规则﹁I1→I2,加入矩阵加权负关联规则集合mwNAR;(4.5)继续(4.2)步骤,当特征词频繁项集Li的真子集集合中每个真子集都被取出一次,而且仅能取出一次,则转入步骤(4.6)步;(4.6)继续(4.1)步骤,当特征词频繁项集集合中每个频繁项集Li都被取出一次,而且仅能取出一次,则(4)步运行结束,转入(5)步;(5)从负项集集合mwNIS中挖掘有效的中文特征词矩阵加权负关联规则模式,包括以下(5.1)步至(5.6)步:(5.1)从中文特征词负项集集合mwNIS中取出特征词负项集Ni,找出Ni的所有真子集;(5.2)从Ni的真子集集合中任意取出两个真子集I1和I2,当I1和I2的支持度mwS(I1)和mwS(I2)都大于或等于最小支持度阈值ms,并且I1∪I2=Ni,计算矩阵加权负项集(I1,I2)的相关系数mwPCC(I1,I2);(5.3)当矩阵加权负项集(I1,I2)的相关系数mwPCC(I1,I2)大于或等于相关系数阈值β时,即mwPCC(I1,I2)≥β,计算有效的矩阵加权负关联规则﹁I1→﹁I2评估值即VMWAR(﹁I1,﹁I2,mc,mi)的值,若其值等于1,则得出矩阵加权中文特征词强负关联规则﹁I1→﹁I2,加入矩阵加权负关联规则集合mwNAR;(5.4)当矩阵加权负项集(I1,I2)的相关系数mwPCC(I1,I2)小于或等于‑β时,即,mwPCC(I1,I2)≤-β,计算有效的矩阵加权负关联规则I1→﹁I2评估值即VMWAR(I1,﹁I2,mc,mi)的值,若其值等于1,则得出矩阵加权中文特征词强负关联规则I1→﹁I2,加入矩阵加权负关联规则集合mwNAR;计算有效的矩阵加权负关联规则﹁I1→I2评估值即VMWAR(﹁I1,I2,mc,mi)的值,若其值等于1,则得出矩阵加权中文特征词强负关联规则﹁I1→I2,加入矩阵加权负关联规则集合mwNAR;(5.5)继续(5.2)步骤,当特征词负项集Ni的真子集集合中每个真子集都被取出一次,而且仅能取出一次,则转入步骤(5.6)步;(5.6)继续(5.1)步骤,当特征词频繁项集集合中每个负项集Ni都被取出一次,而且仅能取出一次,则(5)步运行结束;至此,矩阵加权中文特征词正负模式挖掘结束;所述的ms为最小支持度阈值,mc为最小置信度阈值,mi为最小兴趣度阈值,β为相关系数阈值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西财经学院,未经广西财经学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201410483377.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top