[发明专利]基于偏序项集的中英文本词间关联规则挖掘方法及其系统有效
申请号: | 201410427491.8 | 申请日: | 2014-08-27 |
公开(公告)号: | CN104182527B | 公开(公告)日: | 2017-07-18 |
发明(设计)人: | 黄名选 | 申请(专利权)人: | 广西财经学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广西南宁明智专利商标代理有限责任公司45106 | 代理人: | 黎明天 |
地址: | 530003 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于偏序项集的中英文本词间关联规则挖掘方法及其系统,利用文本信息预处理模块进行预处理,构建文本信息数据库和特征词项目库;利用特征词频繁偏序项集实现模块挖掘特征词候选项集,求出候选项集的偏序项集,采用新的项集剪枝方法对候选偏序项集剪枝,计算候选偏序项集权值,采用新的计算方法计算候选偏序项集支持度,由此得出频繁偏序项集;利用完全加权词间关联规则挖掘实现模块挖掘有效的特征词关联规则模式;利用关联规则模式结果显示模块将关联规则模式输出给用户。本发明具有良好的挖掘效率,得到更接近实际的文本特征词关联规则模式,这些模式运用于中文或者英文文本挖掘、信息检索等领域,运用于搜索引擎,可以提高查询性能。 | ||
搜索关键词: | 基于 偏序项集 中英文 关联 规则 挖掘 方法 及其 系统 | ||
【主权项】:
一种基于偏序项集的中英文本词间关联规则挖掘方法,其特征在于,包括如下步骤:(1)中英文文本信息数据预处理:将待处理的中英文文本信息数据进行预处理:中文文本分词,英文文本词干提取,去除停用词、提取特征词以及计算特征词权值,构建基于向量空间模型的文本信息数据库和特征词项目库;(2)挖掘完全加权特征词频繁偏序项集,包括以下步骤(2.1)和步骤(2.2):(2.1)挖掘完全加权特征词频繁1_项集L1,具体步骤按照(2.1.1)‑(2.1.3)进行:(2.1.1)从特征词项目库中提取特征词候选1_项集C1,累加文本信息数据库中所有项目的权值,得到全部项目权值总和W,累加文本信息数据库中候选1_项集C1的权值,得到w(C1),计算C1的支持度poisup(C1),所述的w(C1)为C1在文本信息数据库中的权值累加总和;(2.1.2)将特征词候选1_项集C1中其支持度piosup(C1)≥ms的频繁1_项集L1加入到特征词频繁项集集合FIS,ms为最小支持度阈值;(2.1.3)在文本信息数据库中累加候选1_项集C1的出现频度得nc1,提取wr(C1),计算C1的偏序项集权值期望POIWB(C1,2),所述的wr(C1)含义描述如下:在所有候选1_项集集合中,排除C1项集后,对余下的候选1_项集集合中的各个项集权值排序,取其中最大的项集权值为wr(C1)值;(2.2)挖掘完全加权特征词频繁k_项集Lk,所述的k≥2,按照步骤(2.2.1)‑步骤(2.2.12)进行操作:(2.2.1)对于候选(k‑1)_项集Ck‑1,将w(Ck‑1)<POIWB(Ck‑1,k)的不可能成为频繁k_项集的Ck‑1剪除,得到新的候选项集Ck‑1集合;其中,w(Ck‑1)为Ck‑1在文本信息数据库中的权值累加总和,POIWB(Ck‑1,k)为包含完全加权候选(k‑1)_项集Ck‑1的k_项集权值期望;(2.2.2)将项集频度不为0的特征词候选(k‑1)_项集Ck‑1进行Apriori连接,生成特征词候选k_项集Ck;(2.2.3)如果Ck为空,则退出2.2步转入(3)步;否则,如果Ck不空,转入2.2.4步;(2.2.4)对于候选k_项集Ck,考察Ck的任何(k‑1)_项集子集,如果存在一个(k‑1)_项集子集的项集权值总和小于其对应的偏序项集权重期望,即w(Ck‑1)<POIWB(Ck‑1,k),则该候选k_项集Ck一定是非频繁项集,从其集合中删除该项集,得到新的候选偏序项集poCk集合;(2.2.5)在文本信息数据库中累加候选k_项集Ck的出现频度得nck,同时,累加候选k_项集Ck的各个项目权值总和得w1(Ck),w2(Ck),…,wk(Ck),提取wr(Ck),计算Ck的权重期望POIWB(Ck,k+1);(2.2.6)删除项集频度为0的候选k_项集Ck,得到新的Ck集合;(2.2.7)求出每个Ck的偏序项集poCk;(2.2.8)考察偏序项集poCk的高序真子集,若存在poCk的高序真子集是非频繁的,则偏序项集poCk一定是非频繁的,从其集合中删除该项集,得到新的候选偏序项集poCk集合;(2.2.9)考察偏序项集poCk的高权项目的项目权值,若存在poCk的高权项目的项目权值小于1_项集的最小权值阈值minw,则偏序项集poCk一定是非频繁的,从偏序项集poCk集合中删除该项集,得到新的偏序项集poCk集合,minw的计算公式为:minw=W×ms;(2.2.10)考察偏序项集poCk的低权项目,若存在poCk的低权项目的项目权值不小于minw,则偏序项集poCk一定是频繁的,将该项集加入到特征词频繁项集集合FIS;(2.2.11)对余下的偏序项集poCk,计算其支持度piosup(poCk),若piosup(poCk)≥ms,则该偏序项集poCk是频繁的,加入到特征词频繁项集集合FIS;(2.2.12)将k的值加1,循环步骤(2.2.1)‑步骤(2.2.12),直到Ck为空,则退出步骤(2.2)转入如下步骤(3);(3)从特征词频繁项集集合FIS中挖掘有效的完全加权特征词强关联规则模式,包括以下步骤:(3.1)从特征词频繁项集集合FIS取出特征词频繁项集Li,找出Li的所有真子集;(3.2)从Li的真子集集合中任意取出两个真子集I1和I2,当并且I1∪I2=Li,若w12≥(k12/k1)×w1×mc,则挖掘出特征词强关联规则I1→I2;若w12≥(k12/k2)×w2×mc,则挖掘出特征词强关联规则I2→I1;所述的k1、k2和k12分别为项集I1、I2和(I1,I2)的项目个数,所述的w1、w2和w12分别为I1、I2和(I1,I2)的项集权值,mc为最小置信度阈值;(3.3)继续步骤(3.2),当特征词频繁项集Li的真子集集合中每个真子集都被取出一次,而且仅能取出一次,则转入步骤(3.4);(3.4)继续步骤(3.1),当特征词频繁项集集合中每个频繁项集Li都被取出一次,而且仅能取出一次,则步骤(3)运行结束;至此,完全加权特征词关联规则模式挖掘结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西财经学院,未经广西财经学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410427491.8/,转载请声明来源钻瓜专利网。